Calcul différentiel sur Rn Première partie Université De Metz 2006-2007 1 Définitions générales On note L(Rn , Rm ) l’espace vectoriel des applications linéaires de Rn dans Rm . Définition 1.1 (différentiabilité en un point ) : Soit f une application d’un ouvert Ω de Rn à valeur dans Rm . On considère deux normes sur Rn et Rm que l’on notera de fao̧n identique k . k. On dit que f admet au point a ∈ Ω une dérivée L 1. Si L est une application linéaire de Rn dans Rm 2. Et si pour tout élément h ∈ Rn tel que a + h ∈ Ω on ait f (a + h) = f (a) + L.h + ε(h) khk où ε(h) est une fonction de Rn dans Rm qui tend vers 0 l’origine de Rm quand h tend vers 0 l’origine de Rn . Notation 1.1 (notation o(h)) : On dit qu’une fonction ϕ(h) de Rn dans Rm est négligeable devant khk si ϕ(h) =0 h→0 khk lim On note o(h) une telle fonction. Avec cette notation on a f (a + h) = f (a) + L.h + o(h) Cette relation est la propriété fondamentale d’une fonction dérivable en a. Lemme 1.1 (arithmétique des fonctions o(h)) : 1. o(h) + o(h) = o(h) 2. o(h) = −o(h) 3. Pour tout réels (λ, µ) on a λo(h) + µo(h) = o(h) 1 (1) Cela résulte des propriétés des fonctions qui ont pour limite 0 Remarque 1.1 : La propriété fondamentale (1) peut s’écrire de façon équivalente f (x) = f (a) + L.(x − a) + o(x − a) (2) Remarque 1.2 : Il faut faire attention que o(h) est un vecteur de Rm . On a évidemment avec la définition de limite kϕ(h)k =0 h→0 khk lim On ne peut pas « diviser » par h qui est un vecteur de Rn . Remarque 1.3 : On ne peut définir la notion de dérivée que en un point d’un ouvert. Cela signifie que ce point doit être contenu dans un ouvert lui-même contenu dans le domaine de définition de f Remarque 1.4 : L’existence de la dérivée ne dépend pas des normes choisies, puisque toutes les normes sont équivalentes sur Rn et Rm . Remarque 1.5 : Puisque kf (a + h) − f (a) − L.hk = o(h) On dit que f (a) + L.h est une bonne approximation de f (a + h). Remarque 1.6 : La définition est équivalente à l’existence de L ∈ L(Rn , Rm ) telle que lim h→0 où de façon équivalente lim x→a kf (a + h) − f (a) − L.hk =0 khk kf (x) − f (a) − L.(x − a)k =0 khk Notation 1.2 (de la dérivée en un point) : La dérivée sera notée de f en a sera notée Df (a) Attention c’est une application linéaire. Proposition 1.1 : Si f est dérivable en a, sa dérivée est unique et f est continue en a 2 preuve Supposons que M ∈ (Rn , Rm ) est aussi telle que kf (a + h) − f (a) − M.hk = o(h) Attention o(h) de cette formule n’est pas forcément la même que la fonction o(h) apparaissant dans la formule avec L. Par commodité notons ∆(h) = f (a + h) − f (a). On a L.h = ∆(h) + o(h) kL.h − M.hk = ko(h) − o(h)k = ko(h)k Soit x 6= 0 un élément quelconque de Rn . Par hypothèse h (L − M ) khk a pour limite 0 quand h tend vers 0. Posons h = λ x avec λ > 0. Alors (L − M ) h khk = (L − M ) λx kλxk = (L − M ) x kxk = 1 (L − M ) (x) kxk C’est une constante qui ne dépend que de x et pas de λ. Par conséquent 1 h =0= lim (L − M ) (L − M ) (x) λ→0 khk kxk ce qui entraı̂ne (L − M )(x) = 0 pour tout x. On a montré L = M On a k(f a + h) − f (a)k ≤ kL.hk + o(h) Comme les applications linéaires de L(Rn , Rm ) sont toutes continues, cette inéagalité prouve que f (a + h) − f (a) tend vers 0 quand h tend vers 0. Ce qui est la définition de continuité. 2 1.1 Cas ou f est une application de R dans Rm La dérivabilité de f en a implique l’existence d’une application de R dans Rm . Mais on sait alors que L(R, Rm ) ≈ Rm En effet soit Φ : L(R, Rm ) −→ Rm L 7−→ L(1) L’application Φ est clairement une application linéaire et son inverse est définie par 3 Φ−1 : Rm v −→ 7−→ L(R, Rm ) (t 7→ t.v) On identifie traditionnellement L(R, Rm ) avec Rm . Si on pense en terme de matrices alors L(R, Rm ) est isomorphe aux matrices m lignes et 1 colonne, autrement dit aux vecteurs colonnes. L’existence de la dérivée est donc équivalente à l’existence d’un vecteur v tel que f (a + h) − f (a) − h.v = o(h) Mais ici, dans ce cas particulier h est un réel, on peut diviser par h. La dérivabilité est donc équivalente à l’existence d’un vecteur v tel que lim h→0 h6=0 f (a + h) − f (a) =v h Dans ce cas et dans ce cas seulement il y a ambiguı̈té sur la définition de la dérivée qui peut désigner un vecteur de Rm ou l’application linéaire associée. Cependant cette ambiguı̈té n’est guère gênante dans la pratique. Dans le calcul matriciel on représente un vecteur x de Rn par une matrice colonne, x1 x2 .. . xm c’est à dire la matrice de l’application linéaire L : t 7→ t.x. On a écrit les coordonnées de l’image par L de la base canonique de R par L dans la base canonique de Rm . On autrement dit on écrit les composantes de L.1 : x dans Rm . 1.2 Matrice Jacobienne Définition 1.2 : Si on choisit une base {ei }i=1,··· ,n de Rn et une base {fj }i=1,··· ,m de Rm la matrice de Df (a) dans ces bases s’appelle la matrice Jacobienne de f en a relativement aux bases {ei } et {fj }. On la note Jacf (a) Définition 1.3 : On dit que f est différentiable dans l’ouvert Ω si elle différentiable en tout point de Ω. L’application Df : Ω x s’appelle l’application dérivée de f . −→ L(Rn , Rm ) 7−→ Df (x) 4 2 Règles de dérivation Théorème 2.1 : 1. Si f est une application constante, f est dérivable et Df (x) = 0 pour tout x ∈ Rn 2. Si f = L est une application linéaire alors DL(x) = L pour tout x ∈ Rn . 3. La dérivée d’une fonction affine f (x) = Lx + v est Df (x) = L 4. La dérivation est opération linéaire D(f + g)(a) = D(λf )(a) = Df (a) + Dg(a) λ Df (a) 5. Si f de Rn dans Rm est définie ses applications composantes par f = (f1 , f2 , · · · , fm ) pour que f soit différentiable en a, il faut et il suffit que chaque fi soit différentiable en a et l’on a Df (a) = (Df1 (a), Df2 (a), · · · , Dfm (a)) 2.1 Dérivée d’une application bilinéaire Lemme 2.1 : Soit B une application bilinéaire de Rn × Rm dans Rp . Alors B est continue en tout point (x, y) de Rn × Rm et il existe M > 0 tel que kB(x, y)k ≤ M kxk kyk preuve On va le démontrer pour la norme k k∞ puisque sur les espaces vectoriels de dimension finie toutes les normes sont équivalentes. Soit {ei }i=1,··· ,n et {fj }i=1,··· ,m les bases canoniques de E = Rn et F = Rm muni de la norme k k∞ . En utilisant les propriétés de bilinéarité l’on a i=n B(x, y) = j=m X xi yj B(ei , fj ) i=1 j=1 En notant M = max |B(ei , fj )| et en utilisant l’inégalité triangulaire on a i,j kB(x, y)k ≤ M kxk∞ kyk∞ On peut quitte à augmenter M obtenir M > 0 2 5 Théorème 2.2 : Soit B une application bilinéaire de Rn × Rm dans Rp . Alors B est dérivable en tout point de Rn × Rm dans Rp et DB(a1 , a2 ).(h1 , h2 ) = B(a1 , h2 ) + B(h1 , a2 ) preuve On pose a = (a1 , a2 ) ∈ E × F et h = (h1 , h2 ). On va calculer B(a1 + h1 , a2 + h2 ). On a B(a1 + h1 , a2 + h2 ) = B(a1 , a2 ) + B(a1 , h2 ) + B(a2 , h2 ) + B(h1 , h2 ) Il est facile de voir (exercice ) que l’application La1 ,a2 de E × F dans G = Rp (h1 , h2 ) 7−→ La1 ,a2 (h1 , h2 ) = B(a1 , h2 ) + B(a2 , h2 ) est linéaire. On a donc B(a + h) = B(a) + La (h) + B(h) Il reste à montrer que B(h) = o(h). Cela provient du lemme. On choisit par exemple sur E × F la norme k(x, y)k = kxk + kyk. C’est une norme sur E × F (voir exercices). Alors kB(h1 , h2 )k M kh1 k kh2 k ≤ ≤ M kh2 k kh1 k + kh2 k kh1 k + kh2 k 1k On a utilisé kh1kh k+kh2 k ≤ 1. Maintenant quand h → 0 on a bien h2 → 0. Ce qui montre B(h) = o(h). 2 2.2 Dérivée du carré scalaire k k22 On a la relation kx + hk22 = hx + h | x + hi = kxk22 + 2hx | hi + khk22 On a évidemment khk22 = o(h), la dérivée est donc l’application linéaire 2hx | •i soit D k k22 (x) : h 7−→ 2 hx | hi 6 3 Théorème de dérivation des fonctions composées Théorème 3.1 : Si f est différentiable en a de E = Rn dans F = Rm et si g est différentiable en f (a) de F dans G = Rp alors g ◦ f est différentiable en a de E dans G et l’on a D(g ◦ f )(a) = Dg(f (a)) ◦ Df (a) Ce théorème est connu dans la littérature anglo-saxonne comme le « chain rule theorem ». preuve Posons b = f (a). Puisque f et g sont différentiable en a respectivement en b on a les relations f (x) = f (a) + Df (a).(x − a) + o(x − a) et g(y) = g(b) + Dg(b).(y − b) + o(y − b) Calculons g ◦ f (x) − g ◦ f (a). On utilise la dernière relation en posant y = f (x) et b = f (a) g (f (x)) − g (f (a)) = Dg(f (a)). (f (x) − f (a)) + o (f (x) − f (a)) On remplace (f (x) − f (a)) par sa valeur donnée par la première relation, et on tient compte du fait que Dg(f (a)) est linéaire : g (f (x)) − g (f (a)) = Dg(f (a)).Df (a).(x − a) + Dg(a). (o(x − a)) + o (f (x) − f (a)) Comme les applications Df (a) et Dg(f (a)) sont linéaires il existe des constantes M1 et M2 telles que kDf (x).xk ≤ M1 kxk kDg(f (a)).y ≤ M2 kyk On a donc l’ inégalité Dg(a). (o(x − a)) ≤ M2 ko(x − a)k Ce qui prouve Dg(a). (o(x − a)) = o(x − a). D’après la première relation on a f (x) − f (a) = Df (a).(x − a) + o(x − a) et donc par majoration kf (x) − f (a)k M1 kx − ak o(x − a) ≤ + kx − ak kx − ak kx − ak Ceci prouve que kf (x)−f (a)k kx−ak est bornée quand x → a. Mais comme on peut écrire 7 o (kf (x) − f (a)k) kf (x) − f (a)k o (kf (x) − f (a)k) = kx − ak kf (x) − f (a)k kx − ak Comme f est continue, si x → a alors f (x) → f (a), la dernière inégalité est donc quand x → a est majorée par le produit d’une quantité bornée par une quantité qui tend vers 0. On a donc montré o (kf (x) − f (a)k) = o(x − a) Par conséquent Dg(a). (o(x − a)) + o (f (x) − f (a)) = o(x − a) + o(x − a) = o(x − a) Ce qui termine la démonstration et l’on a D(g ◦ f )(a) = Lh (a) 2 3.1 Une première application : permutabilité de la dérivation et d’une application linéaire Corollaire 3.1 : Si f est une application de E = Rn dans F = Rm ayant une dérivée en a et si L est une application linéaire de F dans G = Rp alors l’application composée L ◦ f a une dérivée en a, donnée par D(L ◦ f )(a) = L ◦ Df (a) C’est évident. 3.2 Deuxième application Proposition 3.1 : Si f est une bijection d’un ouvert Ω de Rn sur un ouvert Ω0 de Rm , qui est dérivable en tout point de Ω ainsi que sa fonction réciproque f −1 en tout point de Ω0 . Alors la dérivée Df (a) est une bijection de Rn sur Rm . En particulier n = m. De plus la bijection réciproque Df −1 (a) de Df (a) n’est autre que la dérivée, au point b = f (a) de f −1 . Autrement dit on a (Df (a))−1 = D(f −1 )(b) 8 3.3 Troisième application Exercice 3.1 : Trouver la dérivée de x 7−→ kxk2 Que se passe-t-il en 0 ? La dérivée en x 6= 0 est l’application linéaire h 7−→ h x | hi kxk2 ♠ La norme n’est pas dérivable en l’origine. 3.4 Quatrième application :dérivée directionnelle Définition 3.1 (dérivée directionnelle) : On dit que f admet une dérivée directionnelle en a suivant le vecteur v si et seulement si l’application ϕv (t) = f (a + t.v) de R dans Rm est dérivable en t = 0. Comme au paragraphe (1.1) on identifie cette dérivée avec un vecteur de Rm . La dérivée est Df (a).v Cela revient à dire que la limite suivante existe lim t→0 t6=0 f (a + t.v) − f (a) t Proposition 3.2 : Si f est différentiable en a alors pour tout v 6= 0 alors f admet une dérivée directionnelle en a que l’on note Dv (a) preuve On applique le théorème de composition. θv R t f / Rn / a + t.v / Rm / f (a + tv) On remarque que θv est une application affine, sa dérivée est l’application linéaire h → h.v que l’on identifie avec le vecteur v. Le théorème de composition donne pour la dérivée Df (a) ◦ v = Df (a).v. 2 4 4.1 Dérivées partielles, Jacobien, gradient Dérivées partielles On considère une application f définie sur un ensemble ouvert D de Rn à valeurs dans Rm On rappelle la notion d’application partielle 9 Définition 4.1 : Soit f une application définie sur un ensemble D de Rn à valeurs dans Rm . Soit a ∈ D. On appelle i-ème application partielle associée à f relativement au point a l’application de R dans Rm l’application ϕi : x 7−→ f (a1 , a2 , · · · , ai−1 , x, ai+1 , · · · , an ) L’application partielle est définie sur l’ensemble des x tels que (a1 , a2 , · · · , ai−1 , x, ai+1 , · · · , an ) ∈ D. Proposition 4.1 : Si f est différentiable en a, alors pour chaque indice i l’application partielle relativement à a est différentiable en ai . On note Di f (a) sa dérivée en ai . C’est une application linéaire de R dans Rm . On l’appelle i-ème dérivée partielle de f par rapport à la i-ème variable xi . On a Df (a).(h1 , h2 , · · · , hn ) = n X Dfi (a).hi (3) i=1 Remarque 4.1 : La i-ème dérivée partielle est la dérivée directionnelle en a suivant le i-ème vecteur ei de la base canonique de Rn . Remarque 4.2 : On a Di f (a) ∈ L(Rn , Rm ) Remarque 4.3 : La dérivée partielle par rapport à la i-ème variable Dfi (a) se note aussi très souvent ∂f (a) ∂xi La formule (3) devient Df (a).(h1 , h2 , · · · , hn ) = n X ∂f .hi ∂x i i=1 Ces notations sont très utilisées mais elles conduisent souvent à des confusions inextricables quand par exemple on fait des changement de variables. Quel sens ∂ ∂ doit-on attribuer à ∂y f (y, x) où à ∂x f (x, x) ? Remarque 4.4 : Le calcul pratique de la dérivée partielle est très facile. En fait l’application partielle est une application d’une variable (par exemple xi ). On a donc à calculer la dérivée d’une fonction d’une variable. On a vu que l’on peut écrire 10 Di f (x) = lim h→0 xi 6=0 f (x1 ,··· ,xi−1 ,xi +h,xi+1 ,··· ,xn )−f (x1 ,··· ,xi−1 ,xi ,xi+1 ,··· ,xn ) h Cela signifie que si f (x1 , · · · , xn ) est donnée par une formule qui comporte des variables notées x1 , . . ., xn , la i-ème dérivée partielle, c’est à dire dans ce cas, la dérivée par rapport à xi s’obtient en dérivant la formule par rapport à xi , quand tous les xj , pour j 6= i sont considérées comme des constantes. Par exemple si f (x, y) = sin(xy 2 ) alors D1 f (x, y) = y 2 cos(xy 2 ) et D2 f (x, y) = 2xy cos(xy 2 ). De même si f (x, y) = xy alors D1 f (x, y) = yxy−1 et D2 f (x, y) = xy log x Si l’on doit calculer la i-ème dérivée partielle en a, on peut mettre les valeurs des variables xj autres que xi à la valeur aj . Par exemple Calculer D2 f (1, y) pour la fonction f (x, y) = xx xx y + log(x) arctg(arctg(arctg(sin(cos(xy) − log(x + y))))) preuve de la proposition Il n’y a rien à démontrer. Puisque Di f (a) = Dei f (a) on applique la proposition sur les dérivées directionnelles. Autrement dit Di f (a) = Df (a).ei . Maintenant si on écrit h= n X hi e i i=1 on a, en utilisant le fait que Df (a) est une application linéaire On a donc, puisque Df (a) est linéaire Df (a).h = Df (a) n X hi e i i=1 = = = Pn i=1 n X i=1 n X ! hi Df (a).ei hi Di f (a) Di f (a) hi i=1 Ce qui donne exactement la formule (3) puisque les hi sont des scalaires. 2 Commentaire 4.1 : Attention ! : Si f est différentiable alors les dérivées partielles existent mais la réciproque n’est pas forcément vraie. 11 Exercice 4.1 : Soit f : R2 → R définie par xy 1 = x2 +y2 sin √x2 +y2 f (x, y) = =0 si (x, y) 6= (0, 0) si (x, y) = (0, 0) n’est pas différentiable en (0, 0) et pourtant D1 f (0, 0) et D2 f (0, 0) existent. Exercice 4.2 : Soit f : R2 → R définie par x5 = (y−x) 2 +x8 f (x, y) = =0 si (x, y) 6= (0, 0) si (x, y) = (0, 0) En considérant l’ensemble des points {(x, y)|y − x2 } (parabole) montrer que f n’est pas continue en (0, 0). Montrer que D1 f et D2 f existent en 0. 4.2 Gradient On considère des applications f différentiables de plusieurs variables à valeurs réelles. Autrement dit f : Rn 7−→ R Si f est dérivable en a, sa dérivée Df (a) est une application linéaire de Rn dans R, autrement dit une forme linéaire. La matrice Jacobienne de f en a est un vecteur ligne et l’on a, en identitifiant par abus de langage la dérivée et sa matrice dans la base canonique Df (a) = (D1 f (a), D2 f (a), · · · , Dn f (a)) C’est tout simplement la formule (3), en utilisant le produit matriciel n X Df (a).(h1 , h2 , · · · , hn ) = = Dfi (a).hi i=1 h1 (D1 f (a), · · · , Dn f (a)) ∗ ... hn = (D1 f (a), · · · , Dn f (a)) ∗ (h1 , · · · , hn )T La dernière équation fait penser à un produit scalaire. C’est le produit scalaire, si on identifie Df (a) avec le vecteur ligne hDf (a)T | hi. Cela donne la 12 Définition 4.2 : On appelle gradient en a d’une fonction différentiable f à valeur réelle, que l’on note ∇f (a) le vecteur colonne des dérivées partielles calculées en a : D1 f (a) D2 f (a) ∇f = . ≈ Df (a)T . . Dfn (a) 4.3 Matrice Jacobienne Proposition 4.2 : Soit f = (f1 , f2 , · · · fm ) une application différentiable de trice Jacobienne de Df (a) dans la base canonique de Rn D1 f1 (a) · · · .. Jf (a) = (Dj fi (a)) i=1,··· ,m = . j=1,··· ,n D1 fm (a) · · · On trouve aussi la notation ∂ f1 ∂x1 (a) Jf (a) = ∂fi (a) i=1,··· ,m = ∂xj j=1,··· ,n ··· ∂f1 ∂xn (a) .. . .. . ∂fm ∂x1 (a) Rn dans Rm . La maet Rm vaut Dn f1 (a) .. . Dn fm (a) ··· ∂fm ∂xn (a) C’est évident avec les définitions. Les lignes de la matrice sont les dérivées des applications composantes fi . Comme les fi sont à valeur réelles on identifie la dérivée avec un vecteur ligne Dfi (a). Ce vecteur ligne est, voir le paragraphe (4.2) Dfi (a) = (D1 fi (a), D2 fi , · · · , Dn fi (a)) La i-ème ligne est le transposé du gradient ∇fi (a). La j-ème colonne est la j-ème dérivée partielle de f , Dj f (a). C’est bien l’identification avec un vecteur des applications linéaires à une seule variable réelle comme dans le paragraphe (1.1). Remarque 4.5 : Le théorème de composition se traduit par une produit de matrices Jacobienne : Jg◦f (a) = Jg (f (a) ? Jf (a) 13