Premiers outils du Calcul Différentiel Prologue Ce chapître introduit les premiers outils du Calcul Différentiel : cône tangent à une partie d’un espace de dimension finie , dérivées de Dini , dérivées directionnelles , Gateaux- dérivabilité (1), et présente trois applications importantes : 1. La règle de Fermat (2) qui permet de déterminer les éventuels « extrema locaux », ou « extrema libres », de fonctions f ∶ D ⊂ Rn ↦ R de plusieurs variables réelles, à valeurs réelles, mais aussi, plus généralement, de fonctions f ∶ D ⊂ E ↦ R à valeurs réelles, définies sur un espace de dimension finie quelconque, paradigme (3) fondamental de l’optimisation. 2. Le théorème des accroissements finis qui permet un calcul explicite des constantes de Lipschitz de fonctions à valeurs réelles, localement Lipschitziennes, définies sur un ouvert d’un espace de dimension finie. On prouve en particulier que toute fonction à valeurs réelles de n variables réelles, définie sur un ouvert O de Rn , qui admet en tout point de O des dérivées partielles majorées, en valeur absolue, par une même constante réelle, est Lipschitzienne. 3. La caractérisation de la projection Euclidienne sur une partie convexe fermée d’un espace Euclidien (E , <, >) d’un point donné dans E , archétype du problème consistant à minimiser une fonction à valeurs réelles définie sur une partie convexe fermée d’un espace de dimension finie, autre paradigme classique de l’optimisation. On énonce une condition nécessaire d’optimalité, vérifiée par les solutions d’un tel problème, qui généralise la règle de Fermat. 1. - René Eugène Gateaux, 1889-1914, Mathématicien Français. Pour découvrir sa biographie : http://www-groups.dcs.st-andrews.ac.uk/history/Mathematicians/Gateaux.html. 2. - Pierre de Fermat, 1601-1665, Mathématicien Français, « inventeur » du calcul infinitésimal, au-. teur du recueil : « Methodus ad disquirendam maximam et minimam ». Pour découvrir sa biographie :http://www-groups.dcs.st-andrews.ac.uk/history/Biographies/Fermat.html 3. « Paradigme » : choix de problèmes à étudier et des techniques propres à leur étude : www.larousse.fr/dictionnaires/français/paradigme/ . 6.1. CÔNE DES VACTEURS TANGENTS 135 La notion centrale du chapître est la notion de Gateaux-dérivabilité d’une fonction à valeurs réelles f ∶ D ⊂ E ↦ R définie sur une partie D d’un espace de dimension finie E , en un point de l’intérieur de D . Pourquoi « Gateaux-dérivabilité » et pas simplement dérivabilité ? Parce ce que dès que E est de dimension au moins égale à deux, il convient de distinguer plusieurs notions de dérivabilité. La Gateaux-dérivabilité, ou dérivabilité « au sens de Gateaux » est la plus simple d’entre-elles. Si la plupart des fonctions rencontrées dans la pratique de la modélisation mathématique sont partout - ou presque partout - dérivables en un sens plus fort : « Fréchet-dérivables (4) », ou même « continument dérivables », leur « dérivée » est toujours leur dérivée « au sens de Gateaux », et c’est sur la définition de la Gateaux-dérivée que repose le principe du calcul formel de dérivées. Un exemple typique est la calcul de la dérivée d’une fonction quadratique (Exercice 6.6). On donne dans ce chapître une interprétation géométrique de la notion de Gateaux-dérivée, qui sera développée et complétée ultérieurement dans l’étude de la dérivée « au sens de Fréchet ». 6.1 Cône des vecteurs tangents en un point à une partie d’un espace de dimension finie Soient E un espace de dimension finie quelconque, et S une partie quelconque de E . Définition 6.1.1 On dit qu’un vecteur v de E est « tangent » à S en point a adhérent à S si, pour tout réel : t > 0, et tout voisinage V de v dans E : ( a +] 0, t [ V ) ∩ S ≠ ∅ (6.1) De manière équivalente, v est tangent à S au point a s’il existe une suite t (k ) de réels strictement positifs et une v (k ) de vecteurs de E telles que : E t (k ) ↓ 0, v (k ) → v, et : a + t (k ) v (k ) ∈ S (6.2) On note TS (a ) l’ensemble des vecteurs tangents à S au point a. ○ Proposition 6.1.1 Pour tout a dans S : TS (a ) = E . 4. - Maurice René Fréchet, 1878-1973, Mathématicien Français. Pour découvrir sa biographie : http://www-groups.dcs.st-andrews.ac.uk/history/Biographies/Frechet.html. 136 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Proposition 6.1.2 Pour tout a dans ∂S, TS (a ) est un cône fermé de sommet 0E : { v ∈ T S ( a ), λ ≥ 0 ⇒ λ v ∈ T S ( a ) (en particulier : 0E ∈ TS (a )) E v ( k ) ∈ T S ( a ), v ( k ) → v ⇒ v ∈ T S ( a ) (6.3) La figure 6.1 représente aléatoirement plusieurs vecteurs tangents dans R2 en un point du bord d’un carré ou d’un disque, suggèrant l’allure du cône des vecteurs tangents en ce point. Fig. 6.1 – Exemples de vecteurs tangents dans R2 en différents points du bord d’un carré ou d’un disque Cône tangent à un convexe Proposition 6.1.3 Si S est convexe, TS (a ) est l’adhérence du cône de sommet 0E « engendré » par S − a : T S ( a ) = ⋃ t (S − a ) (6.4) t ≥0 Preuve : - Si S est convexe, il contient : a + t (x − a ) = t x + (1 − t ) a pour tout x dans S et tout réel t dans [0, 1], donc TS (a ) contient x − a pour tout x dans S. Ainsi TS (a ) contient le cône ⋃t ≥0 t (S − a ) engendré par S − a. Comme il est fermé, il contient également son adhérence : ⋃t ≥0 t (S − a ) ⊂ TS (a ) . - Réciproquemment, pour tout v dans TS (a ), il existe une suite de réels strictement positifs t (k ), convergeant vers zéro, et une suite de vecteurs v (k ) dans E , convergeant vers v, telles que : a + t (k ) v (k ) ∈ S , de sorte que : v (k ) ∈ t (k )−1 (S − a ) ⊂ ⋃ t (S − a ) ⇒ v ∈ ⋃ t (S − a ) t ≥0 donc : TS (a ) ⊂ ⋃ t (S − a ). t ≥0 t ≥0 6.2. FONCTIONS RÉELLES D’UNE VARIABLE RÉELLE 137 6.2 Fonctions réelles d’une variable réelle Dérivées de Dini Soit ϕ ∶ I ⊂ R ↦ R une fonction réelle d’une variable réelle définie sur une partie quelconque I de R. - Supposons que I contienne un intervalle de la forme [ t , t + s [ ( s > 0) : Définition 6.2.1 On appelle « dérivées de Dini (5) » de ϕ au point t , respectivement « inférieure droite » et « supérieure droite » les deux éléments de R : D + ϕ(t ) = lim inf s −1 [ϕ(t + s ) − ϕ(t )] s↓0 et : D + ϕ(t ) = lim sup s −1 [ϕ(t + s ) − ϕ(t )] s↓0 (6.5) Lorsque : D + ϕ(t ) = D + ϕ(t ) , on dit que ϕ a une « demi-dérivée à droite » au point t , et on note : ϕ′d (t ) = D + ϕ(t ) = D + ϕ(t ) = lim s −1 [ϕ(t + s ) − ϕ(t )] s↓0 (6.6) - Lorsque I contient un intervalle de la forme ] t + s, t ] (s < 0), on définit de manière analogue les dérivées de Dini « à gauche » de ϕ au point t : Définition 6.2.2 On appelle « dérivées de Dini inférieure gauche » (resp. « supérieure gauche ») de ϕ au point t l’éléments de R : D − ϕ(t ) = lim inf s −1 [ϕ(t + s ) − ϕ(t )] et : − s↑0 D ϕ(t ) = lim sup s −1 [ϕ(t + s ) − ϕ(t )] ) s↑0 (6.7) Lorsque : D − ϕ(t ) = D − ϕ(t ) , on dit que ϕ a une « demi-dérivée à gauche » au point t , et on note : ϕ′g (t ) = D − ϕ(t ) = D − ϕ(t ) = lim s −1 [ϕ(t + s ) − ϕ(t )] s↑0 (6.8) Rappelons enfin que ϕ ∶ I ⊂ R ↦ R est dérivable au point t si I est voisinage de t , et si le taux d’accroissement t −1 [ f (t + s ) − f (t )] à une limite finie lorsque s tend vers zéro. Cette limite est alors appelée dérivée de ϕ au point t , et notée 5. - Ulisse Dini, 1845-1918, mathématicien Italien. Pour découvrir sa biographie : http://www-groups.dcs.st-andrews.ac.uk/history/Mathematicians/Dini.html 138 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL ϕ′ (t ). On peut donc énoncer : Proposition 6.2.1 ϕ ∶ I ⊂ R ↦ R est « dérivable » au point t si I est voisinage de t , et si ϕ admet des demi-dérivées à gauche et à droite égales en ce point, et finies. La dérivée ϕ′ (t ) de ϕ au point t est alors la valeur commune de ϕ′g (t ) et de ϕ′d (t ) : ϕ′ (t ) = ϕ′g (t ) = ϕ′d (t ) = lim s −1 [ϕ(t + s ) − ϕ(t )] s →0 Dérivabilité Il est habituel de représenter le graphe d’une fonction ϕ ∶ I ⊂ R ↦ R en assimilant la direction de l’axe des ordonnées à la verticale, et de considérer que ϕ est dérivable en un point t lorsque son graphe : G (ϕ) = {( t , ϕ(t )) ∣ t ∈ I } admet au point (t , f (t )) une tangente non verticale . Transcrite dans un langage rigoureux au moyen de la définition 6.1.1, cette règle empirique devient le : Théorème 6.2.1 ϕ ∶ I ⊂ R ↦ R est dérivable en point t de l’intérieur de I si et seulement si : 1. Elle est continue en t . 2. Le cône TG (ϕ) ( t , ϕ(t )) des vecteurs tangents au graphe de ϕ au point ( t , ϕ(t )) est une droite vectorielle dirigée par un vecteur non colinéaire au vecteur (0, 1) (6). Dans ce cas : TG (ϕ) ( t , ϕ(t )) = V ec t {(1, ϕ′ (t )} . (a) (b) : (c) Fig. 6.2 – Vecteurs tangents en un point au graphe d’une fonction ϕ ∶ I ⊂ R ↦ R Preuve : - Supposons ϕ ∶ I ⊂ R ↦ R dérivable en un point t de l’intérieur de I , donc a fortiori continue en t . Dire qu’un couple (r, s ) appartient au cône tangent au graphe G (ϕ) de ϕ au point ( t , ϕ(t )) , c’est dire qu’il existe trois suites réelles : r (k ), s (k ) et : t (k ) telles que : t (k ) ↓ 0, r (k ) → r, s (k ) → s, et : ϕ ( t + t (k ) r (k )) = ϕ(t ) + t (k ) s (k ) 6. C’est à dire une droite vectorielle « non verticale ». 6.2. FONCTIONS RÉELLES D’UNE VARIABLE RÉELLE 139 de sorte que : ϕ(t ) + t (k ) s (k ) = ϕ(t ) + t (k ) r (k ) ϕ′ (t ) + o (t (k ) r (k )) qui implique : s (k ) = ϕ′ (t ) r (k ) + o (1) , et, par passage à la limite : s = ϕ′ (t ) r , donc : TG (ϕ) ( t , ϕ(t )) ⊂ V ect {(1, ϕ′ (t ))} (6.9) Réciproquement : 2k [ϕ(t + 2−k ) − ϕ(t )] → ϕ′ (t ), et : 2k [ϕ(t − 2−k ) − ϕ(t )] → −ϕ′ (t ) impliquent : (1, ϕ′ (t )) ∈ TG (ϕ ( t , ϕ(t )) , et : (1, −ϕ′ (t )) ∈ TG (ϕ ( t , ϕ(t )) et, puisque TG (ϕ) ( t , ϕ(t )) est un cône : V ect {(1, ϕ′ (t ))} ⊂ TG (ϕ) ( t , ϕ(t )) (6.10) En combinant (6.9) et (6.10), il vient : TG (ϕ) ( t , ϕ(t )) = V ect {(1, ϕ′ (t ))} (6.11) - Supposons maintenant que TG (ϕ) ( t , ϕ(t )) soit une droite vectorielle dirigée par un vecteur non colinéaire au vecteur (0, 1), ce qui équivaut à supposer : TG (ϕ) ( t , ϕ(t )) = V ect {(1, c )} (6.12) et que ϕ soit continue en t . Prouver que ϕ est dérivable au point t et : ϕ′ (t ) = c , c’est prouver que, pour toute suite s (k ) de réels non nuls convergeant vers zéro : r (k ) = ϕ ( t + s (k )) − ϕ(t ) s (k ) →c (6.13) Mais, pour toute valeur d’adhérence r de la suite r (k ) : ϕ ( t + s (k )) = ϕ(t ) + s (k ) r (k ), et : s (k ) → 0 impliquent : (1, r ) ∈ TG (ϕ) ( t , ϕ(t )) . De (6.13), il résulte que la suite r (k ) a au plus une valeur d’adhérence c . Pour prouver qu’elle converge vers c , il suffit donc de prouver qu’elle est bornée (Théorème 3.4.3). Sinon elle devrait contenir une sous-suite r ○ ψ(k ) telle que : ∣ r ○ ψ(k )∣ → +∞, et : r ○ ψ(k ) s ○ ψ(k ) = ϕ ( t + s ○ ψ(k )) − ϕ(t ) → 0 En posant, pour k suffisament grand : −1 θ (k ) = σ ○ ψ(k ), et : ρ (k ) = (r ○ ψ(k )) on aurait alors : θ (k ) → 0, ρ (k ) → 0, et : ϕ ( t + θ (k ) ρ (k )) = ϕ(t ) + θ (k ) impliquant : (0, 1) ∈ TG (ϕ) ( t , ϕ(t )) qui contredirait (6.12). (6.14) 140 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Points de non dérivabilité des fonctions réelles d’une variable réelle Toute fonction ϕ ∶ I ⊂ R ↦ R possède, en chaque point t de l’intérieur de son domaine quatre dérivées de Dini, finies ou non. Si elle n’est pas dérivable au point t , trois cas sont possibles : 1. D − ϕ(t ) ≠ D − ϕ(t ), et/ou : D + ϕ(t ) ≠ D + ϕ(t ) : Lorsque la restriction de ϕ à un voisinage de t est continue, son graphe présente alors un comportement oscillatoire à gauche et/ou à droite du point ( t , ϕ(t )). Un exemple classique est fourni par la fonction continue : ⎧ si : t = 0 ⎪ ⎪ 0 ϕ∶ R↦ R∶t ↦⎨ 1 t sin ( ) sinon ⎪ ⎪ ⎩ t (Fig. 6.2 : c) dont les dérivées de Dini au point : t = 0 sont : D − ϕ(0) = D + ϕ(0) = −1, et : D − ϕ(0) = D + ϕ(0) = 1 2. ϕ admet au point t des demi-dérivées à gauche et à droite égales mais infinies. C’est, par exemple, le cas de la fonction : ϕ∶ R↦ R∶t ↦ √ 3 t (Fig. 6.2 : b) pour laquelle : ϕ′g (0) = ϕ′d (0) = +∞ 3. ϕ admet au point t des demi-dérivées à gauche et à droite distinctes : Soit l’une au moins est infinie, soit les deux sont finies. Ce dernier cas est le plus fréquent en pratique. Toute fonction convexe ou concave, par exemple, admet nécessairement des demi-dérivées finies à gauche et à droite en tout point de l’intérieur de son domaine, et ne présente un défaut de dérivabilité que lorsque ces deux demi-dérivées diffèrent. C’est le cas, par exemple, des fonctions convexes : ϕ ∶ R ↦ R ∶ t ↦ ∣ t ∣ ou ∶ ϕ ∶ R ↦ R ∶ t ↦ max(0, t ) (6.15) dont les demi-dérivées à gauche et à droite en zéro diffèrent. t Un résultat publié par G.C. Young (7)en 1914 affirme que, pour toute fonction ϕ ∶ R ↦ R : D + ϕ( t ) ≤ D − ϕ( t ) et ∶ D − ϕ( t ) ≤ D + ϕ( t ) (6.16) sauf aux points t d’un ensemble au plus dénombrable . En conséquence, toute fonction admettant, en tout point de l’intérieur de son domaine, des demi-dérivées finies à gauche et à droite, et, en particulier, toute fonction ϕ ∶ D ⊂ R ↦ R convexe ou concave, est dérivable en tout point de l’intérieur de son domaine, sauf, au plus, aux points d’un ensemble dénombrable . 6.3. FONCTIONS RÉELLES D’UNE VARIABLE VECTORIELLE 141 6.3 Fonctions réelles d’une variable vectorielle Dérivées de Dini La notion de dérivée de Dini se généralise sans peine à toute fonction à valeurs réelles définie sur une partie quelconque d’un espace vectoriel E . Soient E un espace vectoriel, D une partie quelconque de E , f ∶ D ⊂ E ↦ R une fonction à valeurs réelles définie sur D , a un point donné dans D , et υ un vecteur donné dans E . Les variations de f (x ) lorsque x décrit la droite issue de a et dirigée par υ se transcrivent dans le graphe de la fonction réelle d’une variable réelle ϕ , composée de f avec la restriction de l’application linéaire L ∶ R ↦ E ∶ t ↦ a + t υ à L −1 (D ) . ϕ = f ○ L ∣ L − 1 ( D ) ∶ t ∈ L − 1 (D ) ⊂ R À a + t υ ∈ D ⊂ E À f ( a + t υ ) L (6.17) f t Cette fonction joue un rôle central dans la pratique du calcul différentiel et dans l’étude des algorithmes d’optimisation. Elle indique comment varie f lorsqu’on déplace son argument, à partir du point a , d’un pas t dans la direction du vecteur υ . Définition 6.3.1 Sous réserve d’existence, on appelle « dérivées de Dini », respectivement « inférieure droite » et « supérieure droite », de f au point a « dans la direction du vecteur υ », et on note respectivement D − f (a, υ) et D + f (a, υ) , les éléments de R : D + f (a, υ) = D + ϕ(0) = lim inf t −1 [ f (a + t υ) − f (a )] (6.18) D + f (a, υ) = D + ϕ(0) = lim sup t −1 [ f (a + t υ) − f (a )] (6.19) t ↑0 et : t ↑0 où ϕ est la fonction définie en (6.17). t En pratique, la fonction ϕ s’avère souvent dérivable en zéro. Les dérivées de Dini D + f (a, υ) et D + f (a, υ) coïncident alors simplement avec ϕ′ (0), et leur calcul se résume à dériver une fonction d’une variable réelle : 7. "A note on derivates and differential coefficients," Acta Math. Vol. 37 (1914), no. 1,141-154. - Grace Chisholm Young, 1818-1944. Pour découvrir sa biographie : http://www-groups.dcs.st-andrews.ac.uk/history/Mathematicians/Chisholm− Young..html 142 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Exemple 6.3.1 Pour tout réel : p > 1 , les dérivées de Dini de la norme : n p 1/ p N p ∶ Rn ↦ R ∶ x = (x 1 , . . . , x n ) ↦ ( ∑ ∣ x i ∣ ) i =1 en un point a = (a 1 , . . . , a n ) autre que le zéro de Rn , dans la direction de tout vecteur υ = (υ1 , . . . , υn ) , sont égales : D + N p (a, υ) = D + N p (a, υ) = p −2 υi ∑ni=1 a i ∣ a i ∣ (∑ni=1 ∣ a i ∣p ) (6.20) 1/ q où q est le réel conjugué de p (Définition ??). Preuve : la fonction : n p 1/ p ϕ ∶ R ↦ R ∶ t ↦ N p ( a + t υ ) = ( ∑ ∣ a i + t υi ∣ ) i =1 est dérivable en zéro. Il suffit de calculer sa dérivée en zéro en appliquant les règles usuelles de calcul des dérivées et en se souvenant que, pour : p > 1 : ψ ∶ R ↦ R ∶ x ↦ ∣x ∣ p est partout dérivable, et que sa dérivée est ψ′ ∶ R ↦ R ∶ x ↦ p x ∣ x ∣ p −2 . t On pourrait définir de manière analogue les dérivées de Dini « à gauche » de f au point a dans la direction du vecteur v comme les dérivées de Dini « à gauche » de la fonction d’une variable ϕ définie par (6.17). Mais il s’avère que l’utilisation de dérivées unilatérales suffit à contrôler les variations de de f (Théorème 6.6.2), et il est plus naturel de ne considérer que des dérivées « à droite » pour lesquelles les limites supérieure et inférieure du taux d’accroissement t −1 [ f (a + t v ) − f (a )] seront calculées pour t tendant vers zéro par valeurs positives, plutôt que des dérivées « à gauche » pour lesquelles les mêmes limites devraient être calculées pour t tendant vers zéro par valeurs négatives. Pour cette raison, on ne considère habituellement que des dérivées de Dini « à droite ». Dérivées directionnelles Soient E un espace vectoriel quelconque, D une partie quelconque de E , a un élément de D , et υ un vecteur quelconque donné dans E . Définition 6.3.2 On dit qu’une fonction f ∶ D ⊂ E ↦ R admet une « demi-dérivée directionnelle » « au point a », « dans la direction du vecteur υ », si : D + f (a, υ) = D + f (a, υ) On appelle alors « demi-dérivée directionnelle de f », « au point a », « dans la direction du vecteur υ », et on note D f (a, υ) leur valeur commune : D f (a, υ) = lim t −1 [ f (a + t υ) − f (a )] t ↓0 (6.21) 6.3. FONCTIONS RÉELLES D’UNE VARIABLE VECTORIELLE 143 t La fonction f admet une demi-dérivée directionnelle au point a dans la direction du vecteur υ si et seulement si la fonction ϕ définie par (6.17) admet une demi-dérivée à droite, et, dans ce cas : D f (a, υ) = ϕ′d (0). Définition 6.3.3 On dit que f admet une « dérivée directionnelle » « au point a », « dans la direction du vecteur υ », si elle admet des demi-dérivées directionnelles opposées, au point a, dans les directions des vecteurs υ et −υ : D f (a, −υ) = −D f (a, υ) (6.22) t Pourquoi ; D f (a, −υ) = −D f (a, υ) et non : D f (a, −υ) = D f (a, υ) ? Parce que la fonction f admet une dérivée directionnelle au point a dans la direction du vecteur υ lorsque la fonction ϕ définie par (6.17) est dérivable en zéro, c’est-à-dire : ϕ′g (0) = ϕ′d (0) . Or, sous réserve d’existence : D f (a, υ) = ϕ′d (0) , alors que : D f (a, −υ) = lim t −1 [ f (a − t υ) − f (a )] = − lim t −1 [ f (a + t υ) − f (a )] = −ϕ′g (0) t ↓0 t ↑0 Finalement ϕ est dérivable en zéro si et seulement si : D f (a, −υ) = −D f (a, υ) . Exemple 6.3.2 Pour tout réel : p > 1 , la norme : n p 1/ p N p ∶ Rn ↦ R ∶ x = (x 1 , . . . , x n ) ↦ ( ∑ ∣ x i ∣ ) i =1 admet en tout point de Rn une dérivée directionnelle : ⎧ N p (υ ) ⎪ ⎪ ⎪ ⎪ ⎪ D N p (a, υ) = ⎨ ∑n a i ∣ a i ∣p −2 υi i =1 ⎪ ⎪ ⎪ ⎪ p 1/ q n ⎪ ⎩ (∑i =1 ∣ ai ∣ ) si : a = 0 Rn (6.23) sinon Preuve : Pour : a ≠ 0 Rn , c’est une simple interprétation de (6.20), et si : a = 0 Rn : D N p (0 Rn , υ) = lim t −1 [ N p (t υ) − N p (0 Rn ] = N p (υ) t ↓0 (6.24) Proposition 6.3.1 Si f ∶ D ⊂ E ↦ R admet une demi dérivée directionnelle au point a dans la direction d’un vecteur υ, elle admet également une demi-dérivée directionnelle dans la direction de tout vecteur colinéaire à υ et de même sens, et, pour tout réel : λ > 0 , D (a, λ v ) = λ D f (a, v ) . t En particulier, si f admet au point a une demi-dérivée directionnelle dans la direction de tout vecteur υ de E , la fonction D f (a ) ∶ E ↦ R ∶ υ ↦ D f (a, υ) est homogène de degré un. 144 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Corollaire 6.3.1 Une fonction ϕ ∶ I ⊂ R ↦ R est dérivable en a , et sa dérivée en ce point est ϕ′ (a ) , si et seulement si elle admet une dérivée directionnelle en a dans la direction de tout réel υ , et : Dϕ(a, υ) = ϕ′ (a ) υ . Preuve : Sous réserve d’existence : Dϕ(a, 1) = ϕ′d (a ) , et : Dϕ(a, −1) = −ϕ′g (a ) . Donc ϕ admet une dérivée directionnelle dans la direction du vecteur 1 de R si et seulement si ϕ est dérivable en a , et, dans ce cas, pour tout réel υ positif : { Dϕ(a, υ) = υ Dϕ(a, 1) = ϕ′ (a ) υ Dϕ(a, −υ) = υ Dϕ(a, −1) = −ϕ′ (a ) υ 6.4 Gateaux-dérivabilité Soient E un espace vectoriel quelconque, D une partie quelconque de E , et a un point de l’intérieur de D . Définition 6.4.1 On dit que f ∶ D ⊂ E ↦ R est « dérivable au sens de Gateaux », ou « Gateaux-dérivable » en a si : 1. Elle admet une dérivée directionnelle D f (a, υ) au point a dans la direction de tout vecteur υ de E . 2. L’application L ∶ E ↦ R ∶ υ ↦ D f (a, υ) est linéaire. On dit alors que L est la « dérivée au sens de Gateaux », ou « Gateaux-dérivée »de f au point a , et on la note f ′ (a ). t Une fonction réelle ϕ ∶ D ⊂ R ↦ R d’une variable réelle sera Gateaux-dérivable en un point a si et seulement si elle est dérivable, au sens usuel, en ce point. Sa Gateauxdérivée au point a sera alors l’application linéaire : L ∶ R ↦ R ∶ υ ↦ ϕ′ (a ) v , identifiée, via le théorème de Riesz (Théorème 2.4.1), au nombre dérivé ϕ′ (a ) . C’est une conséquence directe de la définition 6.4.1 et du corollaire 6.3.1 Exemple 6.4.1 Toute forme linéaire ` ∶ E ↦ R est Gateaux-dérivable et sa propre dérivée en tout point. Preuve : Pour tout point a et tout vecteur υ dans E : t −1 [`(a + t v ) − `(a )] = `(v ) . Exemple 6.4.2 Pour tout réel : p > 1 , la norme : n p 1/ p N p ∶ Rn ↦ R ∶ x = (x 1 , . . . , x n ) ↦ ( ∑ ∣ x i ∣ ) i =1 est Gateaux-dérivable en tout point a ≠ 0 Rn . 6.4. GATEAUX-DÉRIVABILITÉ 145 Preuve : C’est une relecture de (6.23) : sa Gateaux-dérivée N p′ (a ) peut être identifiée, via le théorème de Riesz (Théorème 2.4.1), avec le vecteur de coordonnées : ai ∣ ai ∣ p −2 1− p Np (a ) ( 1 ≤ i ≤ n) t Elle n’est par contre jamais Gateaux-dérivable au point 0 Rn , puisque sa dérivée directionnelle : D N p (0 Rn , υ) = N p (υ) en ce point dans la direction d’un vecteur υ ne dépend pas linéairement de υ . Première règles de calcul différentiel Des règles de dérivation des fonctions d’une variable réelle, on déduit facilement : Proposition 6.4.1 Si f ∶ D ⊂ E ↦ R et g ∶ D ⊂ E ↦ R admettent une demi-dérivée directionnelle (resp. une dérivée directionnelle) au point a dans la direction d’un vecteur υ , il en est de même de leur somme et de leur produit, et : 1. D ( f + g )(a, υ) = D f (a, υ) + D g (a, υ) 2. D ( f g )(a, υ) = f (a ) D g (a, υ) + g (a ) D f (a, υ) Si en outre g (a ) ≠ 0 , le quotient f /g admet également une demi-dérivée direcf g (a ) D f (a, υ) − f (a ) D g (a, υ) tionnelle au point a , et : D ( )(a, υ) = g g ( a )2 Corollaire 6.4.1 Si Si f ∶ D ⊂ E ↦ R et g ∶ D ⊂ E ↦ R sont Gateaux-dérivables au point a : 1. ( f + g )′ (a ) = f ′ (a ) + g ′ (a ) 2. ( f g )′ (a ) = g (a ) f ′ (a ) + f (a ) g ′ (a ) f ′ 3. Si en outre g (a ) ≠ 0 : ( ) (a ) = g g (a ) f ′ (a ) − f (a ) g ′ (a ) g ( a )2 En combinant en particulier le corollaire 6.4.1 avec l’exemple 6.4.1, on obtient : Corollaire 6.4.2 Toute fonction polynôme P ∶ Rn ↦ R est partout Gateauxdérivable, et toute fonction fonction rationnelle : R ∶ Rn /Q −1 (0) ↦ R ∶ x ↦ P (x ) Q (x ) où P et Q sont des polynômes de n variables réelles, est Gateaux-dérivable en tout point de son domaine de définition. 146 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Preuve : : Toute fonction polynôme P ∶ Rn ↦ R est une somme de produits de projections p i ∶ Rn ↦ R ∶ x = (x 1 , . . . , x n ) ↦ x i ( 1 ≤ i ≤ n), et toute fonction rationnelle est le quotient de deux fonctions polynômes. Théorème 6.4.1 Si f ∶ D ⊂ E ↦ R est Gateaux-dérivable en a , ϕ ○ f l’est aussi pour toute fonction ϕ ∶ S ⊂ R ↦ R dérivable en b = f (a ) , et : ∀υ ∈ E , (ϕ ○ f )′ (a )(υ) = ϕ′ (b ) f ′ (a )(υ) (6.25) Preuve : Par définition : f ′ (a )(υ) = D f (a, υ) = lim t ↑ 0 t −1 [ f (a + t υ) − f (a )] , ce qui s’écrit : f (a + t υ) = f (a ) + t f ′ (a )(υ) + o (t ) = b + t f ′ (a )(υ) + o (t ) de sorte que : ϕ ○ f (a + t υ) − ϕ ○ f (a ) = ϕ [b + t f ′ (a )(υ) + o (t )] − ϕ(b ) = t ϕ′ (b ) f ′ (a )(υ) + o (t ) donc : t −1 [ϕ ○ f (a + t υ) − ϕ ○ f (a )] = ϕ′ (b ) f ′ (a )(υ) + o (1) → ϕ′ (b ) f ′ (a )(υ) . Dérivées partielles Soient D une partie quelconque de Rn , a un point de D , et B = {e (1), . . . , e (n )} la base naturelle de Rn . Définition 6.4.2 Sous réserve d’existence, on appelle « i ème dérivée partielle » d’une fonction f ∶ D ⊂ Rn ↦ R au point a , et on note : « rectionnelle : ∂f ∂x i ∂f ∂x i (a ) », la dérivée di- (a ) = D f ( a, e (i )) (6.26) de f au point a , dans la direction du i ème vecteur de la base B . Exemple 6.4.3 Les dérivées partielles de la fonction : f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2 en tout point (a 1 , a 2 ) de R2 sont : ∂f ∂x 1 (a1 , a2 ) = 3 a12 a2 , et : ∂f ∂x 2 (a1 , a2 ) = a13 . 6.4. GATEAUX-DÉRIVABILITÉ 147 Définition 6.4.3 On dit qu’une fonction f ∶ D ⊂ Rn ↦ R « admet des dérivées partielles au point a » lorsque toutes ses dérivées partielles sont bien définies. On appelle alors « gradient » de f au point a le vecteur : ∇ f (a ) = ( ∂f ∂x 1 ( a ), . . . , ∂f ∂x n (a )) (6.27) Proposition 6.4.2 Lorsque f ∶ D ⊂ Rn ↦ R est Gateaux-dérivable au point a : ∀υ ∈ Rn f ′ (a )(υ) = < ∇ f (a ), υ > = ∇ f (a )′ ⋆ υ (6.28) Preuve : Par linéarité de f ′ (a ) : n n n n ∂f υ = ∑ υi e (i ) ⇒ f ′ (a )( ∑ υi e (i )) = ∑ υi f ′ (a )[e (i )] = ∑ υi (a )) i =1 i =1 i =1 i =1 ∂x i t En identifiant ∇ f (a ) à une matrice colonne n × 1, sa transposée ∇ f (a )′ est, dès que f est Gateaux-dérivable, la matrice de l’application linéaire f ′ (a ) ∶ Rn ↦ R dans la base naturelle de Rn . Le point de vue géométrique Soient I et J deux intervalles ouverts de R, et f ∶ I × J ⊂ R2 ↦ R une fonction continue définie sur le produit I × J . Une représentation 3D du graphe : G ( f ) = {(x 1 , x 2 , x 3 ) ∈ R3 ∣ (x 1 , x 2 ) ∈ I × J , x 3 = f (x 1 , x 2 )} de f montre une nappe régulière, paramétrée par les coordonnées (x 1 , x 2 ) d’un point courant de l’ouvert I × J (Fig. 6.3) : une « surface » dans le langage des mathématiques. Lorsque que la fonction considérée est continue, cette surface est d’un seul tenant et ne présente aucune déchirure. Dans une telle représentation, il est commode d’assimiler la direction du vecteur w = (0, 0, 1) à la « verticale », et d’identifier l’espace R2 au plan d’équation x 3 = 0 via l’isomorphisme Λ ∶ R2 ↦ R3 ∶ (x 1 , x 2 ) ↦ (x 1 , x 2 , 0) . Si a est un point quelconque de I × J , et (D ) une droite de R2 passant par a et dirigée par un vecteur υ , identifiée via l’isomorphisme Λ à une droite du plan d’équation x 3 = 0 , l’intersection du graphe de f par un plan vertical (P ) contenant (D ) est une courbe (C ). Dans le repère cartésien (a, υ, w ) de (P ), c’est le graphe de de la fonction : ϕ ∶ { t ∈ R ∣ a + t υ ∈ I × J } ⊂ R ↦ R ∶ t ↦ f ( a + t υ) 148 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Fig. 6.3 – Graphe de f ∶] − 3, 3 [×] − 3, 3 [⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2 . dont la dérivée en zéro est, sous réserve d’existence, la dérivée directionnelle de f au point a dans la direction du vecteur υ . La tangente à (C ) au point A = (a, f (a )) est donc dirigée par le vecteur ( v, D f (a, v )) (Théorème 6.2.1), de sorte qu’un point ( x 1 , x 2 , x 3 ) de R3 appartient à cette tangente si et seulement si il existe un réel Λ tel que : x i − a i = Λ υi (i = 1, 2), et : x 3 − f (a ) = Λ D f (a, υ) = D f (a, Λ υ) c’est-à-dire si et seulement si : x 3 = f (a ) + D f (a, x − a ), où : x = (x 1 , x 2 ) (6.29) On peut donc énoncer : Théorème 6.4.2 Si f est Gateaux-dérivable au point a , toute section du graphe de f par un plan vertical (P ) passant par A = ( a, f (a )) est une courbe tracée dans (P ), admettant au point A une tangente contenue dans le plan passant par A orthogonal au vecteur (∇ f (a ), −1) . En particulier : {(∇ f (a ), −1)}⊥ ⊂ TG ( f ) ( a, f (a )) Preuve : (6.29) se récrit : ∂f ∂x 1 (a1 , a2 )(x 1 − a1 ) + ∂f ∂x 2 (a1 , a2 )(x 2 − a2 ) − ( x 3 − f (a1 , a2 )) = 0 (6.30) 6.4. GATEAUX-DÉRIVABILITÉ 149 Fig. 6.4 – Coupe du graphe de f ∶] − 3, 3 [×] − 3, 3 [⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2 par un plan vertical contenant la droite (D ) passant par a = (2, 2) et dirigée par υ = (1, −1). et tout vecteur tangent à la section du graphe de f par un plan vertical est a fortiori tangent au graphe de f , d’où (6.30). Exemple 6.4.4 Lorsque f est la fonction polynôme : f ∶] − 3, 3 [×] − 3, 3 [⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2 dont le graphe est représenté sur la figure 6.3, et : a = (2, 2) , A = (2, 2, 16) et la tangente à toute section verticale du graphe de f passant par A est contenue dans le plan d’équation : 24 x 1 + 8 x 2 − x 3 = 48 . Un jeu d’équations de la tangente en A à la section du graphe de f par le plan vertical représenté sur la figure 6.4 est donc : 24 x 1 + 8 x 2 − x 3 = 48, et : x1 + x2 = 4 B Pour des fonctions suffisamment « régulières », comme la fonction polynôme : f ∶] − 3, 3 [×] − 3, 3 [⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2 on pourra montrer qu’en fait : {(∇ f (a ), −1)}⊥ = TG ( f ) ( a, f (a )) . Ce n’est pas vrai en général, et l’inclusion (6.30) peut être stricte (Exercice 6.2). Plus généralement, le graphe de toute fonction continue f ∶ D ⊂ E ↦ R définie sur une partie D d’un espace vectoriel E de dimension n est une hypersurface de l’espace E × R , paramétrée par les coordonnées d’un point courant de 150 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL D . En appelant encore « verticale » la direction du vecteur (0E , 1) de E × R , l’intersection du graphe de f avec tout plan « vertical » (P ) passant par ( a, f (a )) sera une courbe plane, tracée dans (P ). Lorsque f sera Gateaux-dérivable en a , cette courbe admettra une tangente au point ( a, f (a )), contenue dans l’hyperplan de E × R d’équation : x n +1 = f (a ) + f ′ (a )(x − a ) A fortiori , le sous-jacent {(∇ f (a ), −1)}⊥ de cet hyperplan sera contenu dans le cône TG ( f ) ( a, f (a )) des vecteurs tangents au graphe de f au point ( a, f (a )) , et dès que f sera assez régulière, on aura : {(∇ f (a ), −1)}⊥ = TG ( f ) ( a, f (a )) . 6.5 Minimisation sur un convexe Le problème type On s’intéresse dans cette section au problème consistant à minimiser une fonction à valeurs réelles f ∶ C ⊂ E ↦ R , définie sur une partie convexe C d’un espace de dimension finie E , problème que l’on écrit formellement : (P) Min f (x ) s.c. x ∈ C Une « solution » du problème (P) est un point a de C tel que : x ∈ C ⇒ f (a ) ≤ f (x ) On note indifféremment « arg min (P) », ou : « arg minx ∈S f (x ) » l’ensemble (éventuellement vide) des solutions de (P). On dit qu’une solution a de (P) est un « minimiseur de f sur C », ou, qu’elle « minimise f sur C ». Théorème 6.5.1 a ∈ arg min (P), x ∈ C ⇒ D + f (a, x − a ) ≥ 0 Preuve : Pour tout x dans C , et tout réel t dans ] 0, 1 ] : a + t (x − a ) = t x + (1 − t ) a ∈ C ⇒ f (a ) ≤ f ( a + t (x − a )) donc : D + f (a, x − a ) = lim inf t −1 [ f ( a + t (x − a )) − f (a )] ≥ 0 t ↓0 (6.31) 6.5. MINIMISATION SUR UN CONVEXE 151 Extrema locaux Soient E un espace de dimension finie, D une partie quelconque de E , et f ∶ D ⊂ E ↦ R une fonction à valeurs réelles définie sur D . Définition 6.5.1 On dit qu’un point a est un « minimum local » (resp. un « maximum local » ) de f s’il existe un voisinage V de a dans E , contenu dans D , tel que : x ∈ V ⇒ f (a ) ≤ f (x ) (resp. f (x ) ≤ f (a )) (6.32) Définition 6.5.2 On dit que a est un « extremum local » de f si c’est un minimum ou un maximum local de f . Théorème 6.5.2 Pour tout minimum local a de f ∶ D ⊂ E ↦ R : ∀υ ∈ E , D + f (a, υ) ≥ 0 (6.33) Preuve : C’est une conséquence directe du théorème 6.5.1, appliqué à la restriction de f à une boule ouverte de centre a , associée à une norme quelconque, de rayon : r > 0 assez petit pour qu’elle soit contenue dans V . Corollaire 6.5.1 Soit a un extremum local de f ∶ D ⊂ E ↦ R : 1. Si f admet une dérivée directionnelle au point a dans la direction du vecteur υ de E : D f (a, v ) = 0 . 2. Si f est Gateaux-dérivable en a : f ′ (a ) = 0 . Preuve : - Si a est un minimum local de f , et f admet une dérivée directionnelle en a dans la direction du vecteur υ, (6.33) implique : D f (a, v ) ≥ 0 , et : −D f (a, v ) = D f (a, −v ) ≥ 0 , d’où, nécessairement : D f (a, v ) = 0 . - Si f est Gateaux-dérivable en a , elle admet pour dérivée directionnelle f ′ (a )(υ) dans la direction de tout vecteur υ (Définition 6.4.1). - Si a est un maximum local, on obtient les mêmes conclusions en remplaçant f par − f . Corollaire 6.5.2 (Règle de Fermat Si f ∶ D ⊂ Rn ↦ R admet des dérivées partielles au point a et a est un extremum local de f : ∇ f (a ) = 0 Rn . Preuve : Les dérivées partielles de f au point a sont les dérivées directionnelles de f au point a dans les directions des n vecteurs de la base naturelle de Rn . 152 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Définition 6.5.3 On dit qu’un point a en lequel f ∶ D ⊂ Rn ↦ R admet des dérivées partielles et : ∇ f (a ) = 0 Rn est un « point critique » de f . On peut donc reformuler le corollaire 6.5.2 en énonçant : « tout extremum local de f ∶ D ⊂ Rn ↦ R en lequel f admet des dérivées partielles est point critique de f » . Exemple 6.5.1 La fonction f ∶ R2 ↦ R ∶ (1 , x 2 ) ↦ x 14 + x 24 − 4 x 1 x 2 atteint son minimum sur R2 en exactement deux points : (1, 1) , et : (−1, −1) . Preuve : Elle est coercive (Exemple 5.6.6), et donc atteint son minimum sur R2 . Tout point en lequel ce minimum est atteint est a fortiori un minimum local , donc un point critique de f . Le calcul donne : ∇ f (x 1 , x 2 ) = 4(x 13 − x 2 , x 23 − x 1 ) = 0 R2 ⇒ (x 1 , x 2 ) = (1, 1), (0, 0), ou :(−1, −1) Or : f (1, 1) = f (−1, −1) = −2 , alors que : f (0, 0) = 0 Projection sur un convexe Soit (E , <, >) un espace Euclidien, et C une partie convexe fermée de E . On considère le problème : (P) 1 Min s.c. x ∈ C 2 ∣ x − a ∣2 (6.34) consistant à projeter un point a donné dans E sur C . On sait que ce problème a une unique solution (Théorème 4.5.2). Théorème 6.5.3 (Projection Euclidienne sur un convexe fermé) La projection de a sur C est l’unique point p vérifiant : ∀q ∈ C , < p − a, q − p > ≥ 0 (6.35) Preuve : On vérifie facilement que f ∶ E ↦ R ∶ x ↦ 1 2 ∣ x − a ∣2 est partout Gateaux- dérivable et que sa Gateaux-dérivée en tout point x de E est la forme linéaire : f ′ (x ) ∶ E ↦ R ∶ υ ↦< x − a, υ > identifiée, via le théorème de Riesz, au vecteur x −a de E . En effet : D f (x, υ) = ϕ′ (0) , où : ϕ∶ R↦ R∶t ↦ 1 2 ∣ x + t υ − a ∣2 − 1 2 ∣ x − a ∣2 = t2 2 ∣ υ ∣2 + t < x − a, υ > 6.6. LE THÉORÈME DES ACCROISSEMENTS FINIS 153 La projection p de a sur C doit donc vérifier (6.35) (Théorème 6.5.1). Mais si p 1 et p 2 sont deux points de C vérifiant (6.35), on aura : < p 1 − a, p 2 − p 1 > ≥ 0, et : < p 2 − a, p 1 − p 2 > ≥ 0 d’où : ∣ p 2 − p 1 ∣2 = < p 2 − a, p 2 − p 1 > + < a − p 1 , p 2 − p 1 > = . . . . . . = − < p 2 − a, p 1 − p 2 > − < p 1 − a, p 2 − p 1 > ≤ 0 qui implique : p 1 = p 2 . Donc la projection de a sur C est l’unique point p de C vérifiant (6.35). Corollaire 6.5.3 La fonction pC ∶ (E , ∣ ∣) ↦ (E , ∣ ∣) qui, à tout point x d’un espace Euclidien (E , <, >) associe sa projection sur un convexe fermé C de E est 1-Lipschitzienne. Preuve : Soient p et q les projections respectives de deux points x et y de E . En invoquant deux fois la caratérisation de la projection Euclidienne sur un convexe fermé, on peut écrire : ∣ p − q ∣2 ≤ < p − x, p − q > + < x − y, p − q > + < y − q, p − q > ≤ . . . . . . ≤ − < p − x, q − p > + < x − y, p − q > − < q − y, p − q > ≤ < x − y, p − q > 2 d’où, en vertu de l’inégalité de Cauchy-Schwarz : ∣ p − q ∣ ≤ ∣ x − y ∣ ∣ p − q ∣ . Le résultat valant pour tout couple (x, y ) de points de E , pC ∶ (E , ∣ ∣) ↦ (E , ∣ ∣) est 1-Lipschitzienne. Exemple 6.5.2 La projection Euclidienne d’un point a = (a 1 , . . . , a n ) de R n , muni de son produit scalaire usuel, sur le cône positif C de Rn est le point p de coordonnées : p i = max(0, a i ) ( 1 ≤ i ≤ n ) dans la base naturelle de Rn . Preuve : q = (q 1 , . . . , q n ) ∈ C ⇒ < p − a, q − p > = ∑ni=1 (p i − a i )(q i − p i ) ≥ 0 6.6 Le théorème des accroissements finis Le théorème des accroissements finis, que les anglophones appellent « mean value theorem », affirme, dans sa forme élémentaire, que, si f ∶ [ a, b ] ⊂ R ↦ R est une fonction continue, dérivable en tout point de l’intervalle ouvert ] a, b [ , il existe nécessairement un réel c , strictement compris entre a et b, tel que : f (b ) − f (a ) = f ′ (c )(b − a ) 154 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL L’appellation « théorème de la valeur moyenne » trouve son origine dans le fait que, pour a et b distincts : f ′ (c ) = f (b ) − f ( a ) b−a est précisément la valeur moyenne de l’accroissement de f entre les points a et b . L’expression « accroissements finis » rappelle que la variation de f entre les points a et b est controlée par les valeurs prises par sa dérivée sur l’intervalle [ a, b ] . La notion de dérivée directionnelle, permet d’étendre sans difficulté ce résultat au cas d’une fonction à valeurs réelles définie sur un espace de dimension finie quelconque. Soient E un espace de dimension finie, D une partie de E , f ∶ D ⊂ E ↦ R une fonction continue, à valeurs réelles, définie sur D , et [ a, b ] un segment contenu dans D . Notons, par commodité : ] a, b [= [ a, b ] /{a, b } : Théorème 6.6.1 (Théorème des accroissements finis) Si f admet, en tout point de ] a, b [ une dérivée directionnelle dans la direction du vecteur b − a : ∃ c ∈] a, b [ , f (b ) − f (a ) = D f (c, b − a ) (6.36) Preuve : La fonction : ϕ ∶ [ 0, 1 ] ⊂ R ↦ R ∶ t ↦ ϕ(t ) = f ( t b + (1 − t ) a ) − t f (b ) − (1 − t ) f (a ) vérifie : ϕ(1) = ϕ(0) , donc admet nécessairement un extremum local dans l’intervalle ] 0, 1 [ . Mais, pour tout t dans ] 0, 1 [ : ϕ′ (t ) = D f ( t b + (1 − t ) a, b − a ) − f (b ) + f (a ) et si : ϕ′ (t ) = 0 , c = t b + (1 − t ) a vérifie (6.36). Corollaire 6.6.1 Si f est Gateaux-dérivable en tout point de ] a, b [ , alors pour toute norme N sur E : ∣ f (b ) − f (a )∣ ≤ sup N ⋆ [ f ′ (c )] N (b − a ) c ∈ ] a,b [ (6.37) où N ⋆ est la norme sur L (E , R) subordonnée aux normes N sur E et ∣ ∣ sur R (8). t Lorsque (E , <, >) est un espace Euclidien, et f ′ (c ) est identifiée, via le théorème de Riesz, à un élément de E , N ⋆ est la norme duale de N (Définition 5.3.2). 8. Définition 5.3.1). 6.6. LE THÉORÈME DES ACCROISSEMENTS FINIS 155 Corollaire 6.6.2 Soient O un ouvert convexe de E , N une norme quelconque sur E , et N ⋆ la norme sur L (E , R), subordonnée aux normes N sur E et ∣ ∣ sur R. Une fonction f ∶ O ⊂ E ↦ R , Gateaux-dérivable en tout point de O , est Lipschitzienne si et seulement si : K = sup N ⋆ ( f ′ (x )) < +∞ x ∈O (6.38) et K est alors la plus petite constante telle que : x, y ∈ O ⇒ ∣ f (x ) − f ( y )∣ ≤ K N (x − y ) (6.39) Preuve : Du corollaire 6.6.1, il résulte évidemment que (6.38) implique (6.39). Réciproquemment, (6.39) implique, pour tout point x dans O , tout vecteur υ dans E , et tout réel t strictement positif suffisamment petit : ∣ t −1 [ f (x + t υ) − f (x )]∣ ≤ K N (v ) d’où, par passage à la limite lorsque t tend vers zéro : ∣ f ′ (x )(υ)∣ ≤ K N (υ) , et, par conséquent : N ⋆ [ f ′ (x )] = sup ∣ f ′ (x )(υ)∣ ≤ K N (υ)≤1 Ainsi (6.39) implique (6.38). Exemple 6.6.1 f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ ln(1 + x 12 + x 22 ) est LIpschitzienne. Preuve : Elle est partout Gateaux-dérivable, comme composée de la fonction logarithme, dérivable sur ] 0, +∞[ , avec une fonction polynôme à valeurs dans ] 0, +∞[ (Théorème 6.4.1 et corollaire 6.4.2), et : N2 [∇ f (x 1 , x 2 )] ≤ 1 . Utilisation des dérivées de Dini Dans sa version classique, le théorème des accroissements finis n’est toutefois pas complètement satisfaisant. La raison est que de nombreuses fonctions apparaissant naturellement dans les modèles mathématiques présentent des points de non dérivabilité. Or, comme le montre l’exemple suivant, l’existence d’un seul point de non dérivabilité suffit à proscrire l’usage du théorème 6.6.1 : Exemple 6.6.2 f ∶ [ 0, 1 ] ⊂ R ↦ R ∶ x ↦ min(t , 1 − t ) est partout dérivable sur l’intervalle ] 0, 1 [ , sauf en : t = 1/2, mais il n’existe aucun point c dans l’intervalle ] 0, 1 [ tel que : f (1) − f (0) = f ′ (c ) 156 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Il est cependant possible d’énoncer un résultat général, reposant uniquement sur la notion de dérivée de Dini, qui s’applique encore à une situation analogue à celle de l’exemple 6.6.2, : Théorème 6.6.2 Pour toute fonction continue f ∶ D ⊂ E ↦ R et tout segment [ a, b ] contenu dans D : ∃ c ∈] a, b [ , f (b ) − f (a ) ≤ D + f (c, b − a ) (6.40) Preuve : on commence par démontrer le : Lemme 6.6.1 Pour toute fonction continue ϕ ∶ [ 0, 1 ] ⊂ R ↦ R telle que : ϕ(1) = ϕ(0) = 0 , il existe un point t de l’intervalle ] 0, 1 [ tel que : 0 ≤ D + ϕ(t ) . Pour cela, remarquons d’abord que l’on peut toujours trouver des points t 0 et t 1 dans ] 0, 1 [ tels que : 0 < t 0 < t 1 < 1, et : ϕ(t 0 ) = ϕ(t 1 ) (6.41) C’est évident si ϕ est identiquement nulle, et une conséquence élémentaire du théorème des valeurs intermédiaires sinon. Il suffit alors de trouver un point t dans [ t 0 , t 1 [ tel que : t < s < t 1 ⇒ ϕ( t ) ≤ ϕ( s ) Si t 0 ne convient pas, il existe un point t 2 dans ] t 0 , t 1 [ tel que : ϕ(t 2 ) < ϕ(t 0 ) . Si t 2 ne convient pas, il existe au moins un t dans l’intervalle ] t 2 , t 1 [ tel que ϕ(t ) < ϕ(t 2 ) . On considère alors : θ = sup{t ∈ [ t 2 , t 1 [ ∣ ϕ(t ) < ϕ(t 2 )} Par continuité de ϕ : ϕ(θ ) ≤ ϕ(t 2 ) < ϕ(t 1 ) , donc : θ < t 1 . Dans ce cas θ convient nécessairement. Sinon il existerait t dans ] θ, t 1 [ tel que : ϕ(t ) < ϕ(θ ) ≤ ϕ(t 2 ) , ce qui contredirait la définition de θ. On démontre alors le théorème 6.6.2 en appliquant le lemme à la fonction : ϕ ∶ [ 0, 1 ] ⊂ R ↦ R ∶ t ↦ f ( t b + (1 − t ) a ) − t f (b ) − (1 − t ) f (a ) en remarquant encore que : ϕ(1) = ϕ(0) , et, pour tout t dans ] 0, 1 [ : D + ϕ(t ) = D + f ( t b + (1 − t ) a, b − a ) − f (b ) + f (a ) 6.6. LE THÉORÈME DES ACCROISSEMENTS FINIS 157 Application au calcul de constantes de Lipschitz Soient E un espace de dimension finie, et B = {e (1), . . . , e (n )} une base de E . On munit E des normes : N∞ ∶ E ↦ [ 0, +∞[∶ x = ∑ni=1 x i e (i ) ↦ maxni=1 ∣ x i ∣, et : N1 ∶ E ↦ [ 0, +∞[∶ x = ∑ni=1 x i e (i ) ↦ ∑ni=1 ∣ x i ∣, et on suppose : (H1 ) O un ouvert convexe de E , et f ∶ O ⊂ E ↦ R une fonction définie sur O . (H2 ) Pour tout indice i ( 1 ≤ i ≤ n), f admet, en tout point de O , une demidérivée directionnelle dans les directions des deux vecteurs e (i ) et −e (i ) . (H3 ) Il existe une constante réelle C telle que : x ∈ O ⇒ ∣ max [D f + ( x, e (i )) , D f + ( x, −e (i ))]∣ ≤ C (9) Théorème 6.6.3 Sous les hypothèses ( H1 ) à ( H3 ), f ∶ (E , N1 ) ↦ ( R, ∣ ∣) est C -Lipschitzienne. Preuve : On procède en deux étapes. Dans une première étape, on démontre le résultat en supposant que O est une boule ouverte : B ∞ (a, r ) = {x ∈ Rn ∣ N∞ (x − a ) < r } contenue dans O , de centre a et de rayon : r > 0, associée à la norme N∞ . Dans une seconde étape, on démontre le résultat général. Etape 1 : On suppose : O = B ∞ (a, r ) Pour a = ∑ni=1 a i e (i ), et : b = ∑ni=1 b i e (i ) donnés dans O, on construit un chemin de a à b suivant les directions des vecteurs de base(Figure 6.5) : x (0) = a, x (n ) = b, et : k n i =1 i =k +1 x (k ) = ∑ b i e (i ) + ∑ a i e ( i ) ( 1 ≤ k ≤ n − 1 ) En remarquant que tous les points x (k ) ( 0 ≤ k ≤ n) restent dans B ∞ (a, r ), et : x (k ) − x (k − 1 ) = (b k − a k ) e ( k ) ( 1 ≤ k ≤ n) on déduit alors du théorème 6.6.2 en invoquant la proposition 6.3.1 : n n k =1 k =1 f (b )− f (a ) = ∑ [ f ○x (k )− f ○x (k −1)] ≤ ∑ ∣ b (k ) − a (k )∣ D + f (c (k ), δ(k ) e (k )) où : δ(k ) = ±1, et tous les points c (k ) (1 ≤ k ≤ n) appartiennent à B ∞ (a, r ), de sorte que ( H3 ) implique : n f (b ) − f (a ) ≤ ∑ C ∣ b (k ) − a (k )∣ = C N1 (b − a ) k =1 9. C’est-à-dire : les demi-dérivées directionnelles dans les directions des vecteurs de la base B et de leurs opposés sont toutes majorées, en valeur absolue, par une même constante réelle C . 158 CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL Fig. 6.5 – Chemin d’un point a à un point b dans R3 suivant les directions des vecteurs de base. Finalement, en permutant les rôles de a et b , on déduit : n ∣ f (b ) − f (a )∣ ≤ ∑ C ∣ b (k ) − a (k )∣ = C N1 (b − a ) k =1 Le résultat valant pour tout couple (a, b ) donné dans B ∞ (a, r ), la restriction de f à la boule B ∞ (a, r ) est C -Lipschitzienne de (E , N1 ) dans ( R, ∣ ∣) . Etape 2 : Démontrons maintenant le résultat général : Etant donnés deux points a et b dans O, l’ensemble : T = { t ∈ [ 0, 1 ] ∣ ∣ f ( t b + (1 − t ) a ) − f (a )∣ ≤ C t N1 (b − a ) } . est non vide - il contient zéro - et majoré par un. Soit θ sa borne supérieure. On va prouver, par l’absurde, que θ = 1 . On commence par remarquer que le résultat de l’étape 1 implique, en particulier, la continuité de f en tout point de l’ouvert convexe O, et, a fortiori , en tout point du segment [ a, b ] . On déduit que T est fermé , donc contient sa borne supérieure : ∣ f (θ b + (1 − θ ) a ) − f (a )∣ ≤ C θ N1 (b − a ) (6.42) Mais, le résultat de l’étape 1, à nouveau, montre que la restriction de f à un voisinage de θ b + (1 − θ ) a est C -Lipschitzienne de (E , N1 ) dans ( R, ∣ ∣) . Si : θ < 1, on aura donc, pour tout t strictement supérieur à θ, suffisamment voisin de θ : ∣ f ( t b − (1 − t ) a ) − f (θ b − (1 − θ ) a )∣ ≤ C (t − θ ) N1 (b − a ) (6.43) 6.6. LE THÉORÈME DES ACCROISSEMENTS FINIS 159 d’où, en combinant (6.42) et (6.43) : ∣ f ( t b + (1 − t ) a ) − f (a )∣ ≤ . . . . . . ≤ ∣ f ( t b + (1 − t ) a ) − f (θ b + (1 − θ ) a )∣ + ∣ f (θ b + (1 − θ ) a ) − f (a )∣ ≤ . . . . . . ≤ C ( t − θ ) N 1 ( b − a ) + C θ N 1 (b − a ) = C t N 1 (b − a ) contredisant la définition de θ. Donc, nécessairement : θ = 1, et : ∣ f (b ) − f (a )∣ ≤ C N1 (b − a ) Le résultat valant pour tout couple(a, b ) de points de O, f est C -Lipschitzienne de (E , N1 ) dans ( R, ∣ ∣) . Fonctions localement Lipschitziennes Soient E un espace de dimension finie, et O un ouvert de E . Définition 6.6.1 On dit qu’une fonction f ∶ O ⊂ E ↦ R est localement Lipschitzienne si sa restriction à un voisinage de tout point de O est Lipschitzienne. Théorème 6.6.4 Si f ∶ O ⊂ E ↦ R admet, en tout point de O des dérivées directionnelles dans les directions des n vecteurs e (i ) ( 1 ≤ i ≤ n) d’une base quelconque de E , et si les n fonctions : DF i ∶ O ⊂ E ↦ R ∶ x ↦ D f ( x, e (i )) ( 1 ≤ i ≤ n) sont continues, alors f est localement Lipschitzienne. Preuve : Par hypothèse, tout point a de O admet un voisinage V contenu dans O tel que : x ∈ V ⇒ ∣ D f ( x, e (i ))∣ = ∣ D f ( x, −e (i ))∣ ≤ ∣ D f ( a, e (i ))∣ + 1 et, puisque la topologie usuelle de E est engendrée par les boules ouvertes de rayon strictement positif associée à une quelconque norme sur E , V contient une boule ouverte de centre a et de rayon strictement positif qui est un ouvert convexe contenant a en tout point x duquel les dérivées directionnelles D f ( x, e (i )) , et ,D f ( x, −e (i )) ( 1 ≤ i ≤ n) sont toutes majorées par : n C = max ∣ D f ( a, e (i ))∣ + 1 < + ∞ i =1 Le résultat est donc conséquence du théorème 6.6.3. Exemple 6.6.3 det ∶ M R (n ) ↦ R ∶ A ↦ det A est localement Lipschitzienne. 160 CHAPITRE 6. EXERCICES Preuve : Ses dérivées directionnelles dans les directions des n 2 vecteurs de la base naturelle de M R (n ) sont les dérivées de fonctions polynômes d’une variable réelle. Corollaire 6.6.3 Soit O un ouvert de Rn . Si f ∶ O ⊂ Rn ↦ R admet des dérivées partielles en tout point de O , et si les n fonctions : ∂f ∂x i ∶ O ⊂ Rn ↦ R ∶ x ↦ ∂f ∂x i (x ) sont continues, f est localement Lipschitzienne. Exemple 6.6.4 Toute fonction polynôme de n variables réelles est localement P (x ) , Lipschitzienne sur Rn , et toute fonction rationnelle R ∶ Rn /Q −1 (0) ↦ R ∶ x ↦ Q (x ) où P et Q sont des polynômes, est localement Lipschitzienne sur son domaine de définition. Exercices Exercice 6.1 1. Prouver que la fonction : ⎧ 0 ⎪ ⎪ ⎪ f ∶ R ↦ R ∶ (x 1 , x 2 ) ↦ ⎨ x 1 x 23 ⎪ ⎪ 6 2 ⎪ ⎩ x1 + x2 2 si : (x 1 , x 2 ) = (0, 0) sinon est discontinue en (0, 0). 2. Vérifier néanmoins qu’elle est Gateaux-dérivable en (0, 0). Exercice 6.2 On considère la fonction f ∶ R2 /{(0, 0)} ↦ R ∶ (x 1 , x 2 ↦ x 12 x 24 7 4 x1 + ∣ x2 ∣ 1. Vérifier que f se prolonge par continuité en (0, 0) en posant : f (0, 0) = 0. √ 4 t indication: Poser : y = ∣ x 2 ∣7 . 2. Vérifier que le prolongement par continuité de f est Gateaux-dérivable en (0, 0), et que sa Gateaux-dérivée en (0, 0) est le zéro de L ( R2 , R). 3. Déduire que la tangente à toute section du graphe de f par un plan vertical est horizontale. CHAPITRE 6. EXERCICES 161 4. Calculer f ( t 3 , t 7/4 ) pour t réel strictement positif. Déduire que (0, 0, 1) est tangent au graphe de f en (0, 0, 0). Quel est l’ensemble TG ( f ) (0, 0, 0) ? Exercice 6.3 Trouver tous les points critiques de la fonction : f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 14 + x 24 + 6 x 12 x 22 − 8 x 12 + 8 x 22 Prouver qu’elle atteint son minimum sur R2 . En quel(s) point(s) Exercice 6.4 1 Trouver la valeur minimale de √ x1 +√ 1 2 x2 +√ 1 3 x3 sachant que x 1 , x 2 , et x 3 sont trois nombres réels strictement positifs dont la somme est un. Exercice 6.5 Soient E et F deux espaces de dimensions finies, et L ∶ E ↦ F une application linéaire de E dans F . 1. Prouver que si f ∶ D ⊂ F ↦ R est Gateaux-dérivable au point b = L (a ) : F ○ L ∶ L − 1 (D ) ⊂ E ↦ R est Gateaux-dérivable en a et déterminer (F ○ L )′ (a ) . 2. Soient A est une m × n matrice réelle, et b un vecteur de Rm donnés. Si f ∶ D ⊂ Rm ↦ R Gateaux-dérivable au point b , et A ⋆ x = b , calculer ∇g (x ) où : g ∶ A −1 (D ) = {x ∈ Rn ∣ A ⋆ x ∈ D } ↦ R ∶ x ↦ f ( A ⋆ x ) . Exercice 6.6 On considère la fonction quadratique : f ∶ Rn ↦ 1 ′ x ⋆Q ⋆ x − r ′ ⋆ x 2 où Q est une n × n matrice réelle, et r un vecteur de Rn donnés. 1. Vérifier que f est partout Gateaux-dérivable, et calculer sa Gateaux-dérivée en tout point x de Rn . 2. Retrouver ainsi l’expression du minimum global de f lorsque Q est DP. 3. Si A est une m ×n matrice réelle, et b un vecteur de Rm , quelle est la Gateaux2 dérivée de la fonction f ∶ Rn ↦ R ∶ x ↦ ∣ A ⋆ x − b ∣ ? 162 CHAPITRE 6. EXERCICES Exercice 6.7 ( ∗) 1. Prouver que la fonction det ∶ M R (n ) ↦ R ∶ A ↦ det A est partout Gateauxdérivable. t indication: Considérer l’isomorphisme Λ ∶ Rn ×n ↦ M R (n ) associé à la base naturelle de M R (n ) et utiliser l’exercice 6.5. 2. Vérifier que sa dérivée directionnelle dans la direction de la matrice M (i , j ) dont tous les coefficients sont nuls, sauf celui situé sur la i ème ligne et la j ème j colonne qui vaut un, est le cofacteur de A i . 3. Déduire que la dérivée en zéro de la fonction ϕ ∶ λ ↦ det( A + λ I ) , où I désigne la matrice identité d’ordre n , est la trace de la comatrice de A (Voir : Exemple 3.2.5). t indication: Interpréter ϕ′ (0) comme une dérivée directionnelle. Exercice 6.8 ( ∗) Soient E un espace de dimension finie, et N ∶ E ↦ [ 0, +∞[ une norme quelconque sur E . 1. Justifier l’existence de la demi-dérivée directionnelle D N (a, υ) de N , en tout point a de E , dans la direction de tout vecteur υ de E . t indication: Toute fonction convexe ϕ ∶ R ↦ R d’une variable réelle admet en tout point une dérivée à gauche et une dérivée à droite. 2. Calculer D N (0E , υ), et conclure qu’aucune norme sur E ne peut être Gateauxdérivable au point 0E . 3. Etablir, pour tout point a et tout vecteur υ : D N (a, υ) ≤ N (υ) . Exercice 6.9 ( ∗) 1. Représenter graphiquement l’ensemble : S = {(r cos θ, r sin θ ) ∈ R2 ∣ 0 ≤ r ≤ θ ≤ 2 π} t indication: essayer par exemple la commande O CTAVE : t = 0 : . 01 : 1 ; x = t .⋆ cos( t ) ; y = t .⋆ sin( t ) ; plot( [ x’ t’ ] , [ y’ t’⋆ 0 ] , ’b’ ) N’oubliez pas les points ! 2. Vérifier que TS (0, 0) = R2 bien que (0, 0) ne soit pas dans l’intérieur de S. CHAPITRE 6. EXERCICES 163 3. Prouver que la fonction : f ∶ R2 ↦ R ∶ x ↦ { 1 si : x ∈ D 0 sinon est Gateau-dérivable en (0, 0) . Exercice 6.10 (Cône des vecteurs tangents à un ensemble de niveau) Soient E un espace de dimension finie, D une partie quelconque de E , et a un point de l’intérieur de D . On suppose donnée une fonction f ∶ D ⊂ E ↦ R , Gateaux-dérivable en a , dont la Gateaux-dérivée f ′ (a ) au point a n’est pas identiquement nulle , et on considère l’ensemble de niveau c = f (a ) de f : S c ( f ) = {x ∈ E ∣ f (x ) ≤ c } 1. Prouver : f ′ (a )(υ) < 0 ⇒ υ ∈ TS c ( f ) (a ) 2. Déduire : f ′ (a )(υ) ≤ 0 ⇒ υ ∈ TS c ( f ) (a ) 3. Conclure que, si en outre la restriction de f à un voisinage de a , contenu dans D , est Lipschitzienne : TS c ( f ) (a ) = {υ ∈ E ∣ f ′ (a )(υ) ≤ 0} Quelle est la nature de cet ensemble ? 4. On suppose la restriction de f à un voisinage de a , contenu dans D , Lipschitzienne. Prouver que : T ∂S c ( f ) (a ) = ker f ′ (a ) Quelle est la nature de cet ensemble ? 5. Prouver que l’ensemble K = {(x 1 , x 2 ) ∈ R2 ∣ 2 x 12 + 3 x 22 + 4 x 1 x 2 ≤ 1} est un convexe compact de R2 . Quel est son bord ? 6. Application : vérifier qu’en tout point (a, b ) de ∂K : T∂K (a, b ) est une droite vectorielle de R2 . En quels points est-elle verticale ? horizontale ? Déduire l’allure générale de K . Exercice 6.11 ( ∗) On considère le problème : (P) (x 1 + x 2 ) Min s.c. 2 x 12 + 3 x 22 + 4 x 1 x 2 ≤1 164 CHAPITRE 6. EXERCICES Quel argument simple garantit l’existence d’au moins une solution ? La calculer. t indication: Utiliser pour le calcul les résultats de l’exercice 6.10. On pourra s’aider d’un dessin. Exercice 6.12 (Solution positive d’un système d’équations linéaires) On considère le problème : (P) Min s.c. x ≥ 0 1 2 ∣ A ⋆x −b∣ où A est une m ⋆ n matrice réelle, et b un vecteur de Rm donnés. Ce problème, qui consiste à projeter b sur l’image par A du cône positif de Rn , admet toujours une unique solution x (Exercice 4.7). 1. Prouver que, pour tout y dans le cône positif de Rn : ( y − x )′ ⋆ A ′ ⋆ ( A ⋆ x − b ) ≥ 0 2. Déduire : A ′ ⋆ ( A ⋆ x − b ) ≥ 0, et : x ′ ⋆ A ′ ⋆ ( A ⋆ x − b ) = 0 3. Conclure qu’il existe un unique vecteur Λ de Rn tel que : { A′ ⋆ ( A ⋆ x − b) + Λ = 0 Λ ≤ 0, et : Λ′ ⋆ x = 0 4. Calculer la solution de (P) si : A = ( 1 1 1 ) , et : b = ( ) . 1 −1 1 Exercice 6.13 (Projection sur un polyèdre) On considère le problème : (P) Min s.c. A⋆x ≤b 1 2 ∣ x − a ∣2 où A est une m × n matrice réelle, et b un vecteur de Rm donnés. On note : 1 2 S = {x ∈ Rn ∣ A ⋆ x ≤ b }, et : µ = inf ∣x −a∣ x ∈S 2 On introduit les m fonctions : g j ∶ Rn ↦ R ∶ x ↦ ϕ ○ p j ( A ⋆ x − b ) (1 ≤ j ≤ m ) CHAPITRE 6. EXERCICES 165 où : ϕ ∶ R ↦ R ∶ x ↦ max(0, x )2 , et : p j ∶ Rm ↦ R ∶ y = ( y 1 , . . . , y m ) ↦ y j (1 ≤ j ≤ m ) et on définit, pour tout entier k : f k ∶ Rn ↦ R ∶ x ↦ 1 2 m ∣ x − a ∣2 + k ∑ g j (x ) j =1 1. Vérifier que ϕ est partout dérivable. Quelle est sa dérivée ? 2. Déduire que les g j ( 1 ≤ j ≤ m) sont partout Gateaux-dérivables, et déterminer leurs gradients en tout point x de Rn . 3. Pour tout entier k , la fonction f k atteint son minimum sur Rn . Pourquoi ? 4. On suppose donné, pour tout entier k : x (k ) ∈ arg minx ∈ Rn f k (x ) . Etablir successivement : a. 1 2 ∣ x (k ) − a ∣2 ≤ f k [x (k )] ≤ µ b. x (k ) converge vers l’unique projection x de a sur S . c. Si A (x ) désigne la matrice obtenue en supprimant de A les lignes correspondant aux contraintes du problème (P) non saturées au point x (10), il existe, pour tout entier k suffisamment grand , Λ(k ) ≤ 0, tel que : x (k ) = a + A (x )′ ⋆ Λ(k ) 5. Conclure que, si x est la projection Euclidienne de a sur S , il existe un vecteur Λ dans Rm vérifiant : { x = a + A′ ⋆ Λ Λ ≤ 0, et : Λ′ ⋆ ( A ⋆ x − b ) = 0 6. Application : Calculer la projection du point (1, 2.4, 3, 1.7, 0.9) de R5 sur le simplexe : S = {x = (x 1 , . . . , x 5 ) ∈ R5 ∣ ∑5i =1 x i ≤ 1, x i ≥ 0 ( 1 ≤ i ≤ 5)} . 10. La matrice des contraintes saturées au point x . 166 CHAPITRE 6. EXERCICES Exercice 6.14 ( ∗) (Estimateur du maximum de vraisemblance) Une variable aléatoire X est supposée suivre une loi normale : X ↝ N (µ, σ) . On souhaite estimer les paramètres µ et σ de cette loi à partir d’un échantillon de N réalisations : x (1), x (2), . . . , x (N ) de X . L’estimateur du maximum de vraisemblance retourne : (µ̂, σ̂) = arg min(µ,σ)∈ R× ] 0,+∞ [ f (µ, σ) où : f ∶ R×] 0, +∞[↦ R ∶ (µ, σ) ↦ N ln σ + 1 2 σ2 ∑iN=1 ( x (i ) − µ) 2 On suppose deux au moins des x (i ) ( 1 ≤ i ≤ N ) distincts. 1. Vérifier que la fonction : ϕ ∶ R ↦ R ∶ µ ↦ ∑iN=1 (x (i ) − µ)2 est coercive et montrer que la valeur m de son minimimum est strictement positive. 2. Vérifier que, pour tout réel : a > 0, la fonction : ψa ∶] 0, +∞[↦ R ∶ σ ↦ N ln σ + a 2 σ2 est coercive et calculer la valeur de son minimum. 3. Déduire : f (µ, σ) ≥ N 4 (1 − ln N ) + N 4 2 ln (∑iN=1 [ x (i ) − µ] ) + 1 2 ψm (σ). 4. Conclure que f atteint son minimum en un point unique (µ̂, σ̂). Le déterminer. Exercice 6.15 ∗ Pour résoudre numériquement le problème de traitement d’image (Exemple 2.6.2) on doit programmer sous O CTAVE le calcul de la Gateaux-dérivée du « smoother » : n m −1 j j 2 n −1 m j +1 S ∶ M R (m, n ) ↦ R ∶ ∑ ∑ ∣ Zi +1 − Zi ∣ + ∑ ∑ ∣ Zi j =1 i =1 j =1 i =1 j 2 − Zi ∣ 1. Vérifier que : S( Z ) = NF2 ( A ⋆ Z ) + NF2 ( Z ⋆ B ) où A et B sont des matrices creuses que l’on déterminera, de format respectifs : (m − 1) × m, et : n × (n − 1), et NF est la norme de Frobenius : NF ∶ M R (m, n ) ↦ [ 0, +∞[∶ A ↦ tr ( A ′ ⋆ A ) CHAPITRE 6. EXERCICES 167 2. Déduire que : f ∶ M R (m, n ) ↦ R ∶ Z ↦ NF2 ( A ⋆ Z ) est partout Gateaux-dérivable, et que sa Gateaux-dérivée en tout point Z peut être identifiée, via le théorème de Riesz, à la matrice A ′ ⋆ A ⋆ Z sur 3. Sachant que la commande : sparse(i,j,v,M,N) construit une matrice creuse de format M × N dont les termes non nuls sont listés dans v, et leurs indices de ligne et de colonne respectifs dans i et j , vérifier que la fonction suivante calcule la dérivée du smoother : function G=derivS(Z) (M,N)=size(Z);G=makeT(M)⋆Z+Z⋆makeT(N); function T=makeT(M) k=1:M-1;j=k+1;v=ones(1,M-1); i=[k,j];j=[k,k];v=[v,-v]; A=sparse(i,j,v,M-1,M);T=A’⋆A Quelle commande devra-t-on alors utiliser pour calculer : S ′ ( Z )(M ), si M est une m × n matrice quelconque donnée ? Exercice 6.16 ( ∗) (Règle d’Ekeland (11)) La règle d’Ekeland peut être vue comme une généralisation de la règle de Fermat. Soit f ∶ Rn ↦ R une fonction continue admettant des dérivées partielles en tout point et telle que : infx ∈ Rn f (x ) soit fini. Si f atteint son minimum sur Rn en un point a , ∇ f (a ) = 0 Rn . C’est la règle de Fermat. Mais même si le minimum n’est pas atteint, il existe toujours des points x en lesquels f (x ) est arbitrairement proche du minimum, et ∇ f (x ) arbitrairement voisin du zéro de Rn : c’est la règle d’Ekeland . On suppose donnés un réel : ² > 0, et un point a dans Rn tels que : f (a ) ≤ infn f (x ) + ²2 (6.44) x∈ R 1. Prouver que : S (a, ²) = {x ∈ Rn ∣ f (x ) + ² ∣ x − a ∣ ≤ f (a )} est un compact non vide. 2. Prouver : b ∈ arg minx ∈S (a, ²) f (x ) ⇒ b ∈ arg minx ∈ Rn ( f (x ) + ² ∣ x − b ∣) . 3. Déduire : b ∈ arg minx ∈S (a, ²) f (x ) ⇒ N∞ (∇ f (b )) ≤ ² . 4. Déduire que, pour tout point a vérifiant (6.44), il existe un point b tel que : ∣ b − a ∣ < ², f (b ) ≤ infn f (x ) + ²2 , et : x∈ R N∞ (∇ f (b )) ≤ ² (6.45) 5. Conclure que, pour toute suite minimisante x (k ) de f , il existe une suite minimisante y (k ) telle que : ∣ y (k ) − x (k )∣ → 0, et : ∇ f [ y (k )] → 0 Rn 11. - Ivar Ekeland, 1944- , Mathématicien français, www.ceremade.dauphine.fr /∼ekeland / .