Calcul différentiel sur Rn Premi`ere partie

publicité
Calcul différentiel sur Rn
Première partie
Université De Metz
2006-2007
1
Définitions générales
On note L(Rn , Rm ) l’espace vectoriel des applications linéaires de Rn dans Rm .
Définition 1.1 (différentiabilité en un point ) :
Soit f une application d’un ouvert Ω de Rn à valeur dans Rm . On considère
deux normes sur Rn et Rm que l’on notera de fao̧n identique k . k. On dit que f
admet au point a ∈ Ω une dérivée L
1. Si L est une application linéaire de Rn dans Rm
2. Et si pour tout élément h ∈ Rn tel que a + h ∈ Ω on ait
f (a + h) = f (a) + L.h + ε(h) khk
où ε(h) est une fonction de Rn dans Rm qui tend vers 0 l’origine de Rm
quand h tend vers 0 l’origine de Rn .
Notation 1.1 (notation o(h)) :
On dit qu’une fonction ϕ(h) de Rn dans Rm est négligeable devant khk si
ϕ(h)
=0
h→0 khk
lim
On note o(h) une telle fonction.
Avec cette notation on a
f (a + h) = f (a) + L.h + o(h)
Cette relation est la propriété fondamentale d’une fonction dérivable en a.
Lemme 1.1 (arithmétique des fonctions o(h)) :
1. o(h) + o(h) = o(h)
2. o(h) = −o(h)
3. Pour tout réels (λ, µ) on a λo(h) + µo(h) = o(h)
1
(1)
Cela résulte des propriétés des fonctions qui ont pour limite 0
Remarque 1.1 :
La propriété fondamentale (1) peut s’écrire de façon équivalente
f (x) = f (a) + L.(x − a) + o(x − a)
(2)
Remarque 1.2 :
Il faut faire attention que o(h) est un vecteur de Rm . On a évidemment avec la
définition de limite
kϕ(h)k
=0
h→0 khk
lim
On ne peut pas « diviser » par h qui est un vecteur de Rn .
Remarque 1.3 :
On ne peut définir la notion de dérivée que en un point d’un ouvert. Cela signifie
que ce point doit être contenu dans un ouvert lui-même contenu dans le domaine
de définition de f
Remarque 1.4 :
L’existence de la dérivée ne dépend pas des normes choisies, puisque toutes les
normes sont équivalentes sur Rn et Rm .
Remarque 1.5 :
Puisque
kf (a + h) − f (a) − L.hk = o(h)
On dit que f (a) + L.h est une bonne approximation de f (a + h).
Remarque 1.6 :
La définition est équivalente à l’existence de L ∈ L(Rn , Rm ) telle que
lim
h→0
où de façon équivalente
lim
x→a
kf (a + h) − f (a) − L.hk
=0
khk
kf (x) − f (a) − L.(x − a)k
=0
khk
Notation 1.2 (de la dérivée en un point) :
La dérivée sera notée de f en a sera notée Df (a)
Attention c’est une application linéaire.
Proposition 1.1 :
Si f est dérivable en a, sa dérivée est unique et f est continue en a
2
preuve
Supposons que M ∈ (Rn , Rm ) est aussi telle que
kf (a + h) − f (a) − M.hk = o(h)
Attention o(h) de cette formule n’est pas forcément la même que la fonction
o(h) apparaissant dans la formule avec L. Par commodité notons ∆(h) = f (a +
h) − f (a). On a L.h = ∆(h) + o(h)
kL.h − M.hk = ko(h) − o(h)k = ko(h)k
Soit x 6= 0 un élément quelconque de Rn . Par hypothèse
h
(L − M )
khk
a pour limite 0 quand h tend vers 0. Posons h = λ x avec λ > 0. Alors
(L − M )
h
khk
= (L − M )
λx
kλxk
= (L − M )
x
kxk
=
1
(L − M ) (x)
kxk
C’est une constante qui ne dépend que de x et pas de λ. Par conséquent
1
h
=0=
lim (L − M )
(L − M ) (x)
λ→0
khk
kxk
ce qui entraı̂ne (L − M )(x) = 0 pour tout x. On a montré L = M
On a
k(f a + h) − f (a)k ≤ kL.hk + o(h)
Comme les applications linéaires de L(Rn , Rm ) sont toutes continues, cette
inéagalité prouve que f (a + h) − f (a) tend vers 0 quand h tend vers 0. Ce
qui est la définition de continuité.
2
1.1
Cas ou f est une application de R dans Rm
La dérivabilité de f en a implique l’existence d’une application de R dans Rm .
Mais on sait alors que
L(R, Rm ) ≈ Rm
En effet soit
Φ : L(R, Rm ) −→ Rm
L
7−→ L(1)
L’application Φ est clairement une application linéaire et son inverse est définie
par
3
Φ−1 : Rm
v
−→
7−→
L(R, Rm )
(t 7→ t.v)
On identifie traditionnellement L(R, Rm ) avec Rm . Si on pense en terme de
matrices alors L(R, Rm ) est isomorphe aux matrices m lignes et 1 colonne, autrement dit aux vecteurs colonnes. L’existence de la dérivée est donc équivalente
à l’existence d’un vecteur v tel que
f (a + h) − f (a) − h.v = o(h)
Mais ici, dans ce cas particulier h est un réel, on peut diviser par h. La dérivabilité est donc équivalente à l’existence d’un vecteur v tel que
lim
h→0
h6=0
f (a + h) − f (a)
=v
h
Dans ce cas et dans ce cas seulement il y a ambiguı̈té sur la définition de
la dérivée qui peut désigner un vecteur de Rm ou l’application linéaire associée.
Cependant cette ambiguı̈té n’est guère gênante dans la pratique. Dans le calcul
matriciel on représente un vecteur x de Rn par une matrice colonne,
 
x1
 x2 
 
 .. 
 . 
xm
c’est à dire la matrice de l’application linéaire L : t 7→ t.x. On a écrit les
coordonnées de l’image par L de la base canonique de R par L dans la base
canonique de Rm . On autrement dit on écrit les composantes de L.1 : x dans
Rm .
1.2
Matrice Jacobienne
Définition 1.2 :
Si on choisit une base {ei }i=1,··· ,n de Rn et une base {fj }i=1,··· ,m de Rm la
matrice de Df (a) dans ces bases s’appelle la matrice Jacobienne de f en a
relativement aux bases {ei } et {fj }. On la note
Jacf (a)
Définition 1.3 :
On dit que f est différentiable dans l’ouvert Ω si elle différentiable en tout point
de Ω. L’application
Df : Ω
x
s’appelle l’application dérivée de f .
−→ L(Rn , Rm )
7−→
Df (x)
4
2
Règles de dérivation
Théorème 2.1 :
1. Si f est une application constante, f est dérivable et Df (x) = 0 pour tout
x ∈ Rn
2. Si f = L est une application linéaire alors DL(x) = L pour tout x ∈ Rn .
3. La dérivée d’une fonction affine f (x) = Lx + v est Df (x) = L
4. La dérivation est opération linéaire
D(f + g)(a) =
D(λf )(a)
=
Df (a) + Dg(a)
λ Df (a)
5. Si f de Rn dans Rm est définie ses applications composantes par f =
(f1 , f2 , · · · , fm ) pour que f soit différentiable en a, il faut et il suffit que
chaque fi soit différentiable en a et l’on a
Df (a) = (Df1 (a), Df2 (a), · · · , Dfm (a))
2.1
Dérivée d’une application bilinéaire
Lemme 2.1 :
Soit B une application bilinéaire de Rn × Rm dans Rp . Alors B est continue en
tout point (x, y) de Rn × Rm et il existe M > 0 tel que
kB(x, y)k ≤ M kxk kyk
preuve
On va le démontrer pour la norme k k∞ puisque sur les espaces vectoriels de
dimension finie toutes les normes sont équivalentes.
Soit {ei }i=1,··· ,n et {fj }i=1,··· ,m les bases canoniques de E = Rn et F = Rm
muni de la norme k k∞ .
En utilisant les propriétés de bilinéarité l’on a
i=n
B(x, y) =
j=m
X
xi yj B(ei , fj )
i=1
j=1
En notant M = max |B(ei , fj )| et en utilisant l’inégalité triangulaire on a
i,j
kB(x, y)k ≤ M kxk∞ kyk∞
On peut quitte à augmenter M obtenir M > 0
2
5
Théorème 2.2 :
Soit B une application bilinéaire de Rn × Rm dans Rp . Alors B est dérivable en
tout point de Rn × Rm dans Rp et
DB(a1 , a2 ).(h1 , h2 ) = B(a1 , h2 ) + B(h1 , a2 )
preuve
On pose a = (a1 , a2 ) ∈ E × F et h = (h1 , h2 ). On va calculer B(a1 + h1 , a2 + h2 ).
On a
B(a1 + h1 , a2 + h2 ) = B(a1 , a2 ) + B(a1 , h2 ) + B(a2 , h2 ) + B(h1 , h2 )
Il est facile de voir (exercice ) que l’application La1 ,a2 de E × F dans G = Rp
(h1 , h2 ) 7−→ La1 ,a2 (h1 , h2 ) = B(a1 , h2 ) + B(a2 , h2 )
est linéaire. On a donc
B(a + h) = B(a) + La (h) + B(h)
Il reste à montrer que B(h) = o(h). Cela provient du lemme. On choisit par
exemple sur E × F la norme k(x, y)k = kxk + kyk. C’est une norme sur E × F
(voir exercices).
Alors
kB(h1 , h2 )k
M kh1 k kh2 k
≤
≤ M kh2 k
kh1 k + kh2 k
kh1 k + kh2 k
1k
On a utilisé kh1kh
k+kh2 k ≤ 1. Maintenant quand h → 0 on a bien h2 → 0. Ce qui
montre B(h) = o(h).
2
2.2
Dérivée du carré scalaire k k22
On a la relation
kx + hk22 = hx + h | x + hi = kxk22 + 2hx | hi + khk22
On a évidemment khk22 = o(h), la dérivée est donc l’application linéaire 2hx | •i
soit
D k k22 (x) : h 7−→ 2 hx | hi
6
3
Théorème de dérivation des fonctions composées
Théorème 3.1 :
Si f est différentiable en a de E = Rn dans F = Rm et si g est différentiable en
f (a) de F dans G = Rp alors g ◦ f est différentiable en a de E dans G et l’on a
D(g ◦ f )(a) = Dg(f (a)) ◦ Df (a)
Ce théorème est connu dans la littérature anglo-saxonne comme le « chain rule
theorem ».
preuve
Posons b = f (a). Puisque f et g sont différentiable en a respectivement en b on
a les relations
f (x) = f (a) + Df (a).(x − a) + o(x − a)
et
g(y) = g(b) + Dg(b).(y − b) + o(y − b)
Calculons g ◦ f (x) − g ◦ f (a). On utilise la dernière relation en posant y = f (x)
et b = f (a)
g (f (x)) − g (f (a)) = Dg(f (a)). (f (x) − f (a)) + o (f (x) − f (a))
On remplace (f (x) − f (a)) par sa valeur donnée par la première relation, et on
tient compte du fait que Dg(f (a)) est linéaire :
g (f (x)) − g (f (a)) = Dg(f (a)).Df (a).(x − a) + Dg(a). (o(x − a)) +
o (f (x) − f (a))
Comme les applications Df (a) et Dg(f (a)) sont linéaires il existe des constantes
M1 et M2 telles que
kDf (x).xk ≤ M1 kxk
kDg(f (a)).y ≤ M2 kyk
On a donc l’ inégalité
Dg(a). (o(x − a)) ≤ M2 ko(x − a)k
Ce qui prouve Dg(a). (o(x − a)) = o(x − a).
D’après la première relation on a f (x) − f (a) = Df (a).(x − a) + o(x − a) et
donc par majoration
kf (x) − f (a)k
M1 kx − ak o(x − a)
≤
+
kx − ak
kx − ak
kx − ak
Ceci prouve que
kf (x)−f (a)k
kx−ak
est bornée quand x → a. Mais comme on peut écrire
7
o (kf (x) − f (a)k) kf (x) − f (a)k
o (kf (x) − f (a)k)
=
kx − ak
kf (x) − f (a)k
kx − ak
Comme f est continue, si x → a alors f (x) → f (a), la dernière inégalité est
donc quand x → a est majorée par le produit d’une quantité bornée par une
quantité qui tend vers 0. On a donc montré
o (kf (x) − f (a)k) = o(x − a)
Par conséquent
Dg(a). (o(x − a)) + o (f (x) − f (a)) = o(x − a) + o(x − a) = o(x − a)
Ce qui termine la démonstration et l’on a
D(g ◦ f )(a) = Lh (a)
2
3.1
Une première application : permutabilité de la dérivation et d’une application linéaire
Corollaire 3.1 :
Si f est une application de E = Rn dans F = Rm ayant une dérivée en a et si
L est une application linéaire de F dans G = Rp alors l’application composée
L ◦ f a une dérivée en a, donnée par
D(L ◦ f )(a) = L ◦ Df (a)
C’est évident.
3.2
Deuxième application
Proposition 3.1 :
Si f est une bijection d’un ouvert Ω de Rn sur un ouvert Ω0 de Rm , qui est
dérivable en tout point de Ω ainsi que sa fonction réciproque f −1 en tout point
de Ω0 . Alors la dérivée Df (a) est une bijection de Rn sur Rm . En particulier
n = m. De plus la bijection réciproque Df −1 (a) de Df (a) n’est autre que la
dérivée, au point b = f (a) de f −1 . Autrement dit on a
(Df (a))−1 = D(f −1 )(b)
8
3.3
Troisième application
Exercice 3.1 :
Trouver la dérivée de x 7−→ kxk2
Que se passe-t-il en 0 ?
La dérivée en x 6= 0 est l’application linéaire
h 7−→ h
x
| hi
kxk2
♠ La norme n’est pas dérivable en l’origine.
3.4
Quatrième application :dérivée directionnelle
Définition 3.1 (dérivée directionnelle) :
On dit que f admet une dérivée directionnelle en a suivant le vecteur v si et
seulement si l’application ϕv (t) = f (a + t.v) de R dans Rm est dérivable en
t = 0. Comme au paragraphe (1.1) on identifie cette dérivée avec un vecteur de
Rm . La dérivée est Df (a).v
Cela revient à dire que la limite suivante existe
lim
t→0
t6=0
f (a + t.v) − f (a)
t
Proposition 3.2 :
Si f est différentiable en a alors pour tout v 6= 0 alors f admet une dérivée
directionnelle en a que l’on note Dv (a)
preuve
On applique le théorème de composition.
θv
R
t
f
/ Rn
/ a + t.v / Rm
/ f (a + tv)
On remarque que θv est une application affine, sa dérivée est l’application
linéaire h → h.v que l’on identifie avec le vecteur v. Le théorème de composition donne pour la dérivée Df (a) ◦ v = Df (a).v.
2
4
4.1
Dérivées partielles, Jacobien, gradient
Dérivées partielles
On considère une application f définie sur un ensemble ouvert D de Rn à valeurs
dans Rm
On rappelle la notion d’application partielle
9
Définition 4.1 :
Soit f une application définie sur un ensemble D de Rn à valeurs dans Rm . Soit
a ∈ D. On appelle i-ème application partielle associée à f relativement au point
a l’application de R dans Rm l’application
ϕi : x 7−→ f (a1 , a2 , · · · , ai−1 , x, ai+1 , · · · , an )
L’application partielle est définie sur l’ensemble des x tels que
(a1 , a2 , · · · , ai−1 , x, ai+1 , · · · , an ) ∈ D.
Proposition 4.1 :
Si f est différentiable en a, alors pour chaque indice i l’application partielle
relativement à a est différentiable en ai . On note Di f (a) sa dérivée en ai . C’est
une application linéaire de R dans Rm . On l’appelle i-ème dérivée partielle de
f par rapport à la i-ème variable xi . On a
Df (a).(h1 , h2 , · · · , hn ) =
n
X
Dfi (a).hi
(3)
i=1
Remarque 4.1 :
La i-ème dérivée partielle est la dérivée directionnelle en a suivant le i-ème
vecteur ei de la base canonique de Rn .
Remarque 4.2 :
On a
Di f (a) ∈ L(Rn , Rm )
Remarque 4.3 :
La dérivée partielle par rapport à la i-ème variable Dfi (a) se note aussi très
souvent
∂f
(a)
∂xi
La formule (3) devient
Df (a).(h1 , h2 , · · · , hn ) =
n
X
∂f
.hi
∂x
i
i=1
Ces notations sont très utilisées mais elles conduisent souvent à des confusions
inextricables quand par exemple on fait des changement de variables. Quel sens
∂
∂
doit-on attribuer à ∂y
f (y, x) où à ∂x
f (x, x) ?
Remarque 4.4 :
Le calcul pratique de la dérivée partielle est très facile. En fait l’application partielle est une application d’une variable (par exemple xi ). On a donc à calculer
la dérivée d’une fonction d’une variable. On a vu que l’on peut écrire
10
Di f (x) = lim h→0
xi 6=0
f (x1 ,··· ,xi−1 ,xi +h,xi+1 ,··· ,xn )−f (x1 ,··· ,xi−1 ,xi ,xi+1 ,··· ,xn )
h
Cela signifie que si f (x1 , · · · , xn ) est donnée par une formule qui comporte des
variables notées x1 , . . ., xn , la i-ème dérivée partielle, c’est à dire dans ce cas,
la dérivée par rapport à xi s’obtient en dérivant la formule par rapport à xi ,
quand tous les xj , pour j 6= i sont considérées comme des constantes.
Par exemple si f (x, y) = sin(xy 2 ) alors D1 f (x, y) = y 2 cos(xy 2 ) et D2 f (x, y) =
2xy cos(xy 2 ).
De même si f (x, y) = xy alors D1 f (x, y) = yxy−1 et D2 f (x, y) = xy log x
Si l’on doit calculer la i-ème dérivée partielle en a, on peut mettre les valeurs
des variables xj autres que xi à la valeur aj . Par exemple
Calculer D2 f (1, y) pour la fonction
f (x, y) = xx
xx
y
+ log(x) arctg(arctg(arctg(sin(cos(xy) − log(x + y)))))
preuve de la proposition
Il n’y a rien à démontrer. Puisque Di f (a) = Dei f (a) on applique la proposition
sur les dérivées directionnelles. Autrement dit Di f (a) = Df (a).ei .
Maintenant si on écrit
h=
n
X
hi e i
i=1
on a, en utilisant le fait que Df (a) est une application linéaire
On a donc, puisque Df (a) est linéaire
Df (a).h =
Df (a)
n
X
hi e i
i=1
=
=
=
Pn
i=1
n
X
i=1
n
X
!
hi Df (a).ei
hi Di f (a)
Di f (a) hi
i=1
Ce qui donne exactement la formule (3) puisque les hi sont des scalaires.
2
Commentaire 4.1 : Attention ! : Si f est différentiable alors les dérivées
partielles existent mais la réciproque n’est pas forcément vraie.
11
Exercice 4.1 :
Soit f : R2 → R définie par

xy
1

 = x2 +y2 sin √x2 +y2
f (x, y) =

 =0
si (x, y) 6= (0, 0)
si (x, y) = (0, 0)
n’est pas différentiable en (0, 0) et pourtant D1 f (0, 0) et D2 f (0, 0) existent.
Exercice 4.2 :
Soit f : R2 → R définie par

x5
 = (y−x)
2 +x8
f (x, y) =

=0
si (x, y) 6= (0, 0)
si (x, y) = (0, 0)
En considérant l’ensemble des points {(x, y)|y − x2 } (parabole) montrer que f
n’est pas continue en (0, 0). Montrer que D1 f et D2 f existent en 0.
4.2
Gradient
On considère des applications f différentiables de plusieurs variables à valeurs
réelles. Autrement dit
f : Rn 7−→ R
Si f est dérivable en a, sa dérivée Df (a) est une application linéaire de Rn
dans R, autrement dit une forme linéaire. La matrice Jacobienne de f en a est
un vecteur ligne et l’on a, en identitifiant par abus de langage la dérivée et sa
matrice dans la base canonique
Df (a) = (D1 f (a), D2 f (a), · · · , Dn f (a))
C’est tout simplement la formule (3), en utilisant le produit matriciel
n
X
Df (a).(h1 , h2 , · · · , hn ) =
=
Dfi (a).hi
i=1

h1
 
(D1 f (a), · · · , Dn f (a)) ∗  ... 

hn
=
(D1 f (a), · · · , Dn f (a)) ∗ (h1 , · · · , hn )T
La dernière équation fait penser à un produit scalaire. C’est le produit scalaire,
si on identifie Df (a) avec le vecteur ligne hDf (a)T | hi. Cela donne la
12
Définition 4.2 :
On appelle gradient en a d’une fonction différentiable f à valeur réelle, que l’on
note ∇f (a) le vecteur colonne des dérivées partielles calculées en a :


D1 f (a)
D2 f (a)


∇f =  .  ≈ Df (a)T
.
 . 
Dfn (a)
4.3
Matrice Jacobienne
Proposition 4.2 :
Soit f = (f1 , f2 , · · · fm ) une application différentiable de
trice Jacobienne de Df (a) dans la base canonique de Rn

D1 f1 (a) · · ·



..
Jf (a) = (Dj fi (a)) i=1,··· ,m = 
.

j=1,··· ,n

D1 fm (a) · · ·
On trouve aussi la notation
 ∂ f1
∂x1 (a)
Jf (a) =


∂fi

(a) i=1,··· ,m = 

∂xj
j=1,··· ,n

···

∂f1
∂xn (a)
..
.
..
.
∂fm
∂x1 (a)
Rn dans Rm . La maet Rm vaut

Dn f1 (a)



..

.


Dn fm (a)
···






∂fm
∂xn (a)
C’est évident avec les définitions. Les lignes de la matrice sont les dérivées des
applications composantes fi . Comme les fi sont à valeur réelles on identifie la
dérivée avec un vecteur ligne Dfi (a). Ce vecteur ligne est, voir le paragraphe
(4.2)
Dfi (a) = (D1 fi (a), D2 fi , · · · , Dn fi (a))
La i-ème ligne est le transposé du gradient ∇fi (a).
La j-ème colonne est la j-ème dérivée partielle de f , Dj f (a). C’est bien l’identification avec un vecteur des applications linéaires à une seule variable réelle
comme dans le paragraphe (1.1).
Remarque 4.5 :
Le théorème de composition se traduit par une produit de matrices Jacobienne :
Jg◦f (a) = Jg (f (a) ? Jf (a)
13
Téléchargement