ESPACES PRÉHILBERTIENS RÉELS

publicité
Christophe Bertault — Mathématiques en MPSI
ESPACES
PRÉHILBERTIENS RÉELS
Dans ce chapitre, on travaille seulement avec le corps de base R.
1
PRODUIT SCALAIRE ET NORME
Définition (Produit scalaire, espace préhilbertien réel, espace euclidien)
• Soit E un R-espace vectoriel.
On appelle produit scalaire sur E toute forme bilinéaire symétrique définie positive,
i.e. toute application ·, · : E × E −→ R :
— bilinéaire :
∀x, y, z ∈ E, ∀λ, µ ∈ R,
λx + µ y, z = λ x, z + µ y, z
et
x, λ y + µz = λ x, y + µ x, z ,
— symétrique :
∀x, y ∈ E,
y, x = x, y ,
— définie :
∀x ∈ E,
x, x = 0 =⇒ x = 0 E
(propriété de séparation),
— positive :
∀x ∈ E,
x, x ¾ 0.
Le produit scalaire x, y est aussi parfois noté : (x| y) ou x · y.
• Un espace vectoriel réel muni d’un produit scalaire est appelé un espace préhilbertien réel. Un espace préhilbertien
réel DE DIMENSION FINIE est appelé un espace euclidien.
Définition déroutante ! Nous n’avons à ce stade encore jamais parlé en algèbre linéaire d’angles et
Explication de normes. Mine de rien, nous
sommes
en train
→
→ donc−
de définir le concept de produit scalaire indépendamment de toute
→
→
→
relation du type : −
u ·−
v = −
u .−
v cos →
u ,−
v . En réalité, dans la théorie que nous nous apprêtons à développer, le
produit scalaire est premier et ce sont les notions de norme et d’angle qui viennent après.
Pour montrer la bilinéarité d’un produit scalaire potentiel, la linéarité par rapport à une variable
En pratique seulement est suffisante si on a pris la peine de démontrer la symétrie avant.
Petite remarque au passage :
x, 0 E = 0 E , x = 0 pour tout x ∈ E, par bilinéarité du produit scalaire.
Définition-théorème
(Produit scalaire canonique sur Rn ) L’application (X , Y ) 7−→ t X Y =
scalaire sur Rn appelé son produit scalaire canonique.
n
X
x k yk est un produit
k=1
Ouf, nous retrouvons bien ici les produits scalaires auxquels nous sommes habitués dans le plan R2
Explication →
→
→
→
3
et l’espace R . Par exemple, pour tous vecteurs −
u = (x, y) et −
u ′ = (x ′ , y ′ ) de R2 : −
u ·−
u ′ = x x ′ + y y ′.
Démonstration
• Symétrie : Pour tous X , Y ∈ Rn :
t
XY =
n
X
x k yk =
k=1
n
X
yk x k = t Y X .
k=1
n
• Bilinéarité : Par symétrie, la linéarité par rapport à la deuxième
variable suffit. Pour
tous X , Y, Z ∈ R
t
t
t
et λ, µ ∈ R, par bilinéarité du produit matriciel :
X λY + µZ = λ X Y + µ X Z .
n
• Positivité et séparation : Pour tout X ∈ R :
alors :
xk = 0
pour tout k ∈ ¹1, nº, i.e. :
1
t
XX =
X = 0.
n
X
k=1
¾0
x k2
¾ 0,
et si :
t
n z}|{
X
x k2 = 0,
XX =
k=1
Christophe Bertault — Mathématiques en MPSI
Il
$ ATTENTION ! $

‹ peut exister de nombreux produits scalaires sur un même espace vectoriel. Par exemple, l’applica2
1
tion (X , Y ) 7−→ t X
Y est un produit scalaire sur R2 distinct du produit scalaire usuel.
1 2
Symétrie et bilinéarité évidentes. Ensuite, pour tout X = (x, y) ∈ R2 :

‹
2x + y ‹
2 1
t
X
X= x y
= 2x 2 + 2x y + 2 y 2 = x 2 + y 2 + (x + y)2 ¾ 0,
1 2
x + 2y

‹
2 1
et si : t X
X = 0, alors : x = y = x + y = 0, donc : X = (0, 0).
1 2
En effet
Z
Exemple
Soient a, b ∈ R avec :
a < b.
L’application ( f , g) 7−→
b
a
f (t)g(t) dt est un produit scalaire sur C [a, b], R .
En effet
• Symétrie et bilinéarité : Évidentes.
• Positivité et séparation : Pour tout f ∈ C [a, b], R :
alors comme f est CONTINUE et POSITIVE OU NULLE :
Z
Z
b
f (t)2 dt ¾ 0
f (t)2 dt = 0,
a
f2=0
b
et si :
a
sur [a, b] et donc :
f = 0.
Muni du produit scalaire défini ci-dessus, C [a, b], R n’est pas un espace euclidien car ce n’est pas
$ ATTENTION ! $
un R-espace vectoriel de dimension finie. C’est seulement un espace préhilbertien réel.
Exemple
n
X
Soient x 0 , . . . , x n ∈ R DISTINCTS. L’application (P, Q) 7−→
P(x k )Q(x k ) est un produit scalaire sur Rn [X ].
k=0
En effet
• Symétrie et bilinéarité : Symétrie évidente, donc la linéarité par rapport à la première variable suffit.
n
n
n
X
X
X
Pour tous P, Q, R ∈ Rn [X ] et λ, µ ∈ R :
λP +µQ (x k )R(x k ) = λ
P(x k )R(x k )+µ
Q(x k )R(x k ).
k=0
• Positivité et séparation : Pour tout P ∈ Rn [X ] :
n
X
k=0
2
P(x k ) ¾ 0,
et si :
k=0
P, P =
k=0
n
X
P(x k )2 = 0,
k=0
alors : P(x k ) = 0 pour tout k ∈ ¹0, nº, autrement dit x 0 , . . . , x n sont des racines de P. Le polynôme
P possède alors au moins n + 1 racines distinctes, or : ∂ ◦ P ¶ n, donc : P = 0.
Exemple
L’application (A, B) 7−→ tr t AB est un produit scalaire sur Mn (R) — concrètement :
Si on n’oublie pas que :
2
Mn (R) = Rn ,
X
tr t AB =
a i j bi j .
1¶i, j¶n
2
ce produit scalaire n’est jamais que le produit scalaire canonique de Rn .
En effet
• Symétrie et bilinéarité : Symétrie évidente, donc la linéarité par rapport à la première variable suffit.
Pour tous A, B, C ∈ Mn (R) et λ, µ ∈ R, par bilinéarité du produit matriciel et linéarité de la trace :
€
€
Š
Š
tr t A λB + µC = tr λ t AB + µ t AC = λ tr t AB + µ tr t AC .
X
ai2j ¾ 0, et si : tr t AA = 0,
• Positivité et séparation : Pour tout A ∈ Mn (R) : tr t AA =
1¶i, j¶n
alors :
ai j = 0
pour tous i, j ∈ ¹1, nº, i.e. :
A = 0.
Définition (Norme et distance associées à un produit scalaire) Soit E un espace préhilbertien réel.
• On appelle norme (euclidienne) sur E associée au produit scalaire ·, · l’application k · k : E −→ R+ définie pour tout
q
x ∈ E par : kxk =
x, x .
On dit qu’un vecteur x de E est unitaire si : kxk = 1.
• On appelle distance (euclidienne) sur E associée au produit scalaire ·, · l’application d : E × E −→ R+ définie pour
tous x, y ∈ E par : d(x, y) = kx − yk.
$ ATTENTION ! $
La notion de distance n’est pas forcémentcelle ‹
qu’on croit ! La distance dépend d’un CHOIX de
p
2
1
produit scalaire. Par exemple, pour le produit scalaire (X , Y ) 7−→ t X
Y sur R2 : (1, 0) = 2 6= 1.
1 2
2
Christophe Bertault — Mathématiques en MPSI
Explication
Qui dit « bilinéarité » dit « identités remarquables ». En l’occurrence, pour tous x, y ∈ E :
kx + yk2 = kxk2 + 2 x, y + k yk2
et
x + y, x − y = kxk2 − k yk2 .
On peut aussi « inverser » ces relations et récupérer le produit scalaire en fonction de la norme. On obtient alors ce qu’on
Š 1€
Š
1 €
appelle des identités de polarisation. Par exemple :
kx + yk2 − kxk2 − k yk2 =
kx + yk2 − kx − yk2 .
x, y =
2
4
Théorème (Inégalité de Cauchy-Schwarz, inégalité triangulaire) Soient E un espace préhilbertien réel et x, y, z ∈ E.
(i) Inégalité de Cauchy-Schwarz :
x, y ¶ kxk.k yk, avec égalité si et seulement si x et y sont colinéaires.
(ii) Inégalité triangulaire, version norme :
kxk − k yk ¶ kx + yk ¶ kxk + k yk.
L’inégalité de droite est une égalité si et seulement si x et y sont colinéaires DE MÊME SENS.
Inégalité triangulaire, version distance :
d(x, y) − d( y, z) ¶ d(x, z) ¶ d(x, y) + d( y, z).
Si nous avions une définition propre du produit scalaire en termes
de normes et d’angles, l’inégalité
Explication → −
→ −
→ −
→
→
de Cauchy-Schwarz serait une pure trivialité : −
u ·→
v = −
u . →
v cos −
u ,−
v ¶ −
u . →
v . Dans notre contexte,
cette inégalité est justement remarquable parce que nous n’avons pas encore de définition propre des angles orientés.
Démonstration
(i) Si y = 0 E :
x, y = 0 ¶ 0 = kxk.k yk
et dans ce cas d’égalité, x et y sont clairement colinéaires.
2
Supposons à présent y 6= 0 E . La fonction t 7−→ x + t y = kxk2 + 2t x, y + t 2 k yk2 est alors polynomiale de degré EXACTEMENT 2, et comme elle est positive ou nulle
surtout R, son discriminant est
2
2
2
négatif ou nul : 4 x, y − 4kxk k yk ¶ 0, d’où le résultat : x, y ¶ kxk.k yk.
À quelle condition a-t-on en fait une égalité ? L’inégalité est une égalité si et seulement si le discriminant
2
calculé est nul, i.e. si et seulement si la fonction t 7−→ x + t y s’annule. Cela revient à dire que :
x + t 0 y = 0 E pour un certain t 0 ∈ R, i.e. que x et y sont colinéaires.
€
Š2
(i)
(ii) D’abord : kx + yk2 = kxk2 + 2 x, y + k yk2 ¶ kxk2 + 2kxk.k yk + k yk2 = kxk + k yk , ensuite
on passe à la racine carrée.
À quelle condition a-t-on en fait une égalité ? Si et seulement si :
x, y = kxk.k yk. Les vecteurs x
et y sont alors colinéaires d’après (i), et
quitte à les
on peut supposer que : y = λx pour
permuter,
un certain λ ∈ R. Aussitôt : λkxk2 = x, λx = x, y = kxk.k yk = kxk.kλxk = |λ|.kxk2 , donc soit
x est nul, soit : λ = |λ|, i.e. : λ ¾ 0. Dans les deux cas, x et y sont colinéaires DE MÊME SENS.
Réciproque immédiate.
Pour l’inégalité généralisée : kxk = (x + y) + (− y) ¶ kx + yk + k − yk = kx + yk + k yk, donc :
kxk − k yk ¶ kx + yk,
‚
Exemple
Pour tous x 1 , . . . , x n ∈ R :
et de même :
Œ2
n
X
xk
k=1
n
X
¶n
k yk − kxk ¶ kx + yk.
x k2 ,
„
x1 = . . . = xn.
avec égalité si et seulement si :
k=1
En effet Simple application de l’inégalité de Cauchy-Schwarz aux vecteurs (x 1 , . . . , x n ) et (1, . . . , 1) de Rn
pour le produit scalaire canonique.
Exemple
Soient a, b ∈ R avec :
a < b.
Pour tout f ∈ C 1 [a, b], R :
v
uZ
t
2
2
f (b) − f (a) ¶ 2
Appliquons l’inégalité de Cauchy-Schwarz à f et f ′ dans l’espace
Z
Z b
b
′
f (t) f (t) dt ¶
muni du produit scalaire (u, v) 7−→
u(t)v(t) dt : a
a
En effet
On conclut en calculant simplement l’intégrale de gauche.
3
b
f (t)2 dt
v
uZ
t
a
b
f ′ (t)2 dt.
a
préhilbertien réel C [a, b], R
v
v
uZ b
uZ b
t
t
f (t)2 dt
f ′ (t)2 dt.
a
a
Christophe Bertault — Mathématiques en MPSI
Exemple
Soit (Ω, P) un espace probabilisé fini. L’application (X , Y ) 7−→ E(X Y ) est une forme bilinéaire symétrique
positive sur le R-espace vectoriel RΩ des variables aléatoires €réelles
sur Ω, MAIS CE N’EST PAS FORCÉMENT UN PRODUIT
Š
SCALAIRE . C’en est un si et seulement si pour tout ω ∈ Ω :
P ω > 0.
L’application (X , Y ) 7−→ E(X Y ) a-t-elle la propriété de séparation ? C’est toute la question.
€ Š
— Si : P ω > 0 pour tout ω ∈ Ω, alors pour toute variable aléatoire X ∈ RΩ , si : E X 2 = 0,
X € Š
alors :
P ω X (ω)2 = 0, donc : ∀ω ∈ Ω, X (ω) = 0, donc : X = 0.
ω∈Ω
€ Š
— Si (X , Y ) 7−→ E(X Y ) est un produit scalaire, alors pour tout ω ∈ Ω : P ω = E 1{ω} = E 12{ω} > 0.
En effet
Théorème (Inégalité de Cauchy-Schwarz pour les variables aléatoires)
X et Y deux variables aléatoires sur Ω. Alors :
Ç
Ç
E(X Y ) ¶ E X 2
E Y2 .
En particulier :
Soient (Ω, P) un espace probabilisé fini et
cov(X , Y ) ¶ σ(X ) σ(Y ).
Démonstration
• Cas où E Y 2 6= 0 : On peut reprendre ici à l’identique la preuve précédente de l’inégalité de CauchySchwarz — la propriété de séparation du produit scalaire n’y est pas utilisée.
• Cas où E Y 2 = 0 : La fonction t 7−→ E (X + t Y )2 = E X 2 + 2tE(X Y ) est à la fois affine et positive
ou nulle sur tout R, donc sonq
coefficient
directeur est nul : E(X Y ) = 0, ce qui nous donne comme
q
E Y2 .
voulu : E(X Y ) = 0 ¶ 0 = E X 2
€
2 Š r €
2 Š
Š r €
Enfin : cov(X , Y ) = E X − E(X ) Y − E(Y ) ¶ E X − E(X )
E Y − E(Y )
= σ(X ) σ(Y ). „
Exemple
2
2.1
p
E |X | ¶ V(X ).
q
p
En effet D’après l’inégalité de Cauchy-Schwarz : E |X | = E |X | × 1 ¶ E X 2
E(1),
p
q
2
2
centrée : E |X | ¶ E X − E(X ) = V(X ).
Pour toute variable aléatoire centrée X :
et comme X est
ORTHOGONALITÉ
VECTEURS
ORTHOGONAUX, FAMILLES ORTHOGONALES / ORTHONORMALES
Définition (Vecteurs orthogonaux, parties orthogonales, familles orthogonales/orthonormales) Soient E un espace
préhilbertien réel, x, y ∈ E, X et Y deux parties de E et (x i )i∈I une famille de vecteurs de E.
• On dit que x et y sont orthogonaux si :
x, y = 0, ce qu’on note : x ⊥ y.
• On dit que les parties X et Y sont orthogonales, ce qu’on note : X ⊥ Y , si pour tous x ∈ X et y ∈ Y :
x, y = 0.
• On dit que la famille (x i )i∈I est orthogonale si pour tous i, j ∈ I DISTINCTS :
x i , x j = 0.
• On dit que la famille (x i )i∈I est orthonormale
(ou orthonormée) si elle est orthogonale et constituée de vecteurs
unitaires, i.e. si pour tous i, j ∈ I :
x i , x j = δi j .
Notre théorie géométrique a définitivement la tête en bas. Jusqu’ici, pour vous, la notion d’orthogo Explication nalité était première et le produit scalaire second. C’est le contraire qui est vrai à présent, la notion d’orthogonalité repose
sur la définition préalable d’un produit scalaire. En particulier, à chaque produit produit scalaire est associée une notion
d’orthogonalité, ce qui fait que les angles droits ne sont pas droits absolument, mais relativement.
Exemple
Pour le produit scalaire canonique de Rn , la base canonique (Ei )1¶i¶n de Rn est orthonormale car comme on
le vérifie aisément, pour tous i, j ∈ ¹1, nº : t Ei E j = δi j .
4
Christophe Bertault — Mathématiques en MPSI
Le résultat suivant est à la fois trivial et essentiel.
Théorème (Vecteurs orthogonaux à tout vecteur) Dans un espace préhilbertien réel, le vecteur nul est le seul vecteur
orthogonal à tout vecteur.
Démonstration Soient E un espace préhilbertien
réel et x ∈ E. Si x est orthogonal à tout vecteur de E, alors
„
x est en particulier orthogonal à. . . lui-même :
x, x = 0, et ainsi : x = 0 E par séparation.

‹
2 1
Exemple
Pour le produit scalaire (X , Y ) 7−→ X
Y sur R2 , la base canonique n’est pas orthonormale, mais
1 2
‹

(1, 0) (1, −2)
en est une comme on le vérifie aisément. Cela nous fait apparemment un drôle d’angle
la famille
p , p
2
6
droit mais vous devez considérer que c’en est bel et bien un — c’est simplement votre œil qui n’est pas adapté.
−
→

t
−
→
u
b
−
→
v
La famille des fonctions t 7−→ sin(nt), n décrivant N∗ , est orthonormale dans C [0, 2π], R pour le produit
Z 2π
1
scalaire ( f , g) 7−→
f (t)g(t) dt.
π 0
Z 2π
Z 2π
•
˜
1
1
1 − cos(2nt)
1 sin(2nt) t=2π
2
∗
En effet Pour tout n ∈ N :
sin (nt) dt =
= 1, et
dt = 1 −
π 0
π 0
2
π
4n
t=0
Z 2π
Z 2π
€
Š
1
1
sin(mt) sin(nt) dt =
cos (m − n)t − cos (m + n)t dt
pour tous m, n ∈ N∗ DISTINCTS :
π 0
2π 0
™ t=2π
–
sin (m + n)t
1 sin (m − n)t
=
−
= 0.
2π
m−n
m+n
Exemple
t=0
Exemple
Dans C [−1, 1], R , l’ensemble des fonctions paires et l’ensemble des fonctions impaires sont deux sous-espaces
Z1
vectoriels orthogonaux pour le produit scalaire ( f , g) 7−→
En effet
f (t)g(t) dt.
−1
Z
Pour toutes fonctions p ∈ C [−1, 1], R paire et i ∈ C [−1, 1], R impaire :
1
−1
p(t)i(t) dt = 0.
| {z }
impaire
Théorème (Propriétés des familles orthogonales) Soit E un espace préhilbertien réel.
(i) Théorème de Pythagore : Pour tous x, y ∈ E, x et y sont orthogonaux si et seulement
2
si : kx + yk2 = kxk2 + k yk2 .
n
n
X
X
kx i k2 .
xi =
En outre, pour toute famille orthogonale (x 1 , . . . , x n ) de E : i=1 i=1
x+
b
y
b
y
b
x
(ii) Toute famille orthogonale de vecteurs NON NULS de E est libre.
En particulier, si E est de dimension finie n 6= 0, toute famille famille orthonormale de n vecteurs de E est déjà
une BASE orthonormale de E.
Démonstration
(i) Tout simplement :
2
n
n
n
X
X
X X
kx i k2 .
xi =
kx i k2 + 2
xi , x j =
i=1 {z
}
|
i=1
i=1
1¶i< j¶n
=0
(ii) Soient (x 1 , . . . , x n ) une famille orthogonale de vecteurs non
de E et¸λ1 , . . . , λn ∈ R pour lesquels :
® nuls
n
n
n
X
X
X
λk x k , x i =
λk x k = 0 E . Pour tout i ∈ ¹1, nº : 0 = 0 E , x i =
λk x k , x i = λi kx i k2 ,
k=1
k=1
donc comme x i 6= 0 E :
kx i k 6= 0,
et donc :
λi = 0.
k=1
La famille (x 1 , . . . , x n ) est ainsi libre.
Pour le cas particulier, toute famille orthonormale de E est libre comme on vient de le voir puisque ses
vecteurs — unitaires — sont non nuls, et bien sûr une telle famille est une base de E si elle a pour
cardinal la dimension de E.
„
5
−
→
ı
Christophe Bertault — Mathématiques en MPSI
2.2
COORDONNÉES
DANS UNE BASE ORTHONORMALE
Théorème (Coordonnées dans une base orthonormale) Soient E 6= 0 E un espace euclidien, (e1 , . . . , en ) une base
ORTHONORMALE de E et x ∈ E.
n
X
€
Š
Alors : x =
En d’autres termes, les coordonnées de x dans (e1 , . . . , en ) sont x, e1 , . . . , x, en .
x, ek ek .
k=1
Explication
−
→
u
Vous connaissez bien ce résultat dans le plan et dans l’espace !
Notons (x 1 , . . . ,®x n ) les coordonnées
de x dans (e1 , . . . , en ).
¸
n
n
n
X
X
X
x i δki = x k .
x i ei , ek =
x i ei , ek =
Pour tout k ∈ ¹1, nº :
x, ek =
Démonstration
b
„
−
→
ı
−
→
→
u ·−
ı
i=1
i=1
i=1
−
→

−
→
→
u ·−

Théorème (Expression du produit scalaire et de la norme dans une base orthonormale) Soient E 6= 0 E un
espace euclidien et x, y ∈ E de coordonnées respectives X = (x 1 , . . . , x n ) et Y = ( y1 , . . . , yn ) dans une certaine base
ORTHONORMALE de E.
v
n
uX
n
X
p
t
t
x, y =
x k yk = X Y
et
kxk =
x k2 = t X X .
k=1
k=1
n
Ce résultat montre que finalement, le produit scalaire
Explication canonique sur R est un modèle pour tous
les produits scalaires des espaces euclidiens. Calculer le produit scalaire x, y dans un espace euclidien abstrait revient à
calculer le produit scalaire canonique des coordonnées des vecteurs x et y dans une base ORTHONORMALE quelconque.
$ ATTENTION ! $
Ces formules sont fausses en général pour des coordonnées dans une base NON orthonormale.
Notons (e1 , . . . , en ) la base orthonormale considérée.
+
*
n
n
n
X
X
X
X
X
x i y j δi j =
x i y j ei , e j =
x k yk = t X Y .
yjej =
x i ei ,
Tout simplement :
x, y =
Démonstration
i=1
2.3
1¶i, j¶n
1¶i, j¶n
j=1
„
k=1
ALGORITHME D’ORTHONORMALISATION DE GRAM-SCHMIDT
Théorème (Algorithme d’orthonormalisation de Gram-Schmidt) Soient E un espace préhilbertien réel et (e1 , . . . , en )
une famille LIBRE de E. On peut transformer (e1 , . . . , en ) en une famille orthonormale (u1 , . . . , un ) de E telle que :
∀k ∈ ¹1, nº,
Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ).
Les vecteurs u1 , . . . , un peuvent être construits de proche en proche depuis u1 jusqu’à un , et pour tout k ∈ ¹1, nº, on n’a
k−1
X
e k , ui ui
ek −
que deux choix possibles pour uk , uk est soit le vecteur :
i=1
,
k−1
X
e k , ui ui ek −
i=1
6
soit son opposé.
Christophe Bertault — Mathématiques en MPSI
On a tout compris quand on a compris le cas n = 2. On veut transformer
une famille libre quelconque
u
e
−
e
,
u
e1
2
2 1 1
.
(e1 , e2 ) en une famille orthonormale (u1 , u2 ) avec : u1 =
et u2 = e − e , u u ke1 k
e2
2
2 1 1
u2
• La première formule normalise e1 , c’est-à-dire le rend unitaire.
u1
• La seconde commence par transformer e2 en e2 − e2 , u1 u1 , c’est-à-dire à retrancher à
e1
e2 sa composante selon u1 , qui vaut e2 , u1 u1 . Le vecteur ainsi obtenu est orthogonal
à u1 , mais il peut ne pas être unitaire, c’est pourquoi on le divise par sa norme.
e2 , u1 u1
e2 − e2 , u1 u1
Explication
b
b
b
Plus généralement, l’algorithme de Gram-Schmidt construit uk en ôtant de ek ses composantes selon u1 , . . . , uk−1 , puis en
rendant le tout unitaire.
Démonstration
• La construction commence simplement. La famille (e1 ) est libre, donc :
e1
u1 =
. Clairement : Vect(e1 ) = Vect(u1 ).
ke1 k
e1 6= 0 E .
On pose alors :
• Soit k ∈ ¹1, nº. Supposons qu’on ait réussi à construire une famille orthonormale (u1 , . . . , uk−1 ) pour
laquelle : Vect(e1 , . . . , e p ) = Vect(u1 , . . . , u p ) pour tout p ∈ ¹0, k − 1º. Nous sommes en quête d’un
vecteur uk pour lequel (u1 , . . . , uk ) est orthonormale et : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ).
• Analyse : Si un tel uk existe, il est combinaison linéaire de e1 , . . . , ek car : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ),
mais comme : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ), uk est aussi combinaison linéaire de u1 , . . . , uk−1 , ek ,
k−1
X
aik ui .
de sorte que pour certains a1k , . . . , akk ∈ R : uk = akk ek +
i=1
Dans ces conditions, pour tout i ∈ ¹1, k − 1º, sachant que uk et ui sont orthogonaux :
+
*
k−1
k−1
X
X
a jk u j , ui = akk ek , ui + aik ,
a jk u j , ui = akk ek , ui +
0 = uk , ui = akk ek +
j=1
j=1
ou encore :
aik = −akk ek , ui .
Conclusion :
uk = akk u
bk
avec :
u
bk = ek −
k−1
X
e k , ui ui ,
mais
i=1
u
bk
±1
akk = . Conclusion : uk = ± .
u
bk
u
bk k
Le vecteur uk , s’il existe, est finalement déterminé AU SIGNE PRÈS par u1 , . . . , uk−1 et ek .
k−1
X
e k , ui ui .
• Synthèse : Réciproquement, posons : u
bk = ek −
par ailleurs kuk k = 1, donc :
1
|akk | = ,
u
b i.e. :
i=1
Se peut-il que u
bk soit nul ? La liberté de (e1 , . . . , en ) s’en trouverait contredite car ek serait combinaison
linéaire de u1 , . . . , uk−1 , et donc de e1 , . . . , ek−1 puisque : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ). Nous
u
bk
u
bk
pouvons ainsi poser : uk = — on pourrait aussi choisir : uk = − .
u
u
b b k
k
Montrons que la famille (u1 , . . . , uk ) est orthonormale. Comme (u1 , . . . , uk−1 ) l’est par hypothèse de récurrence, et comme uk est unitaire, il nous suffit de montrer que uk est orthogonal à u1 , . . . , uk−1 . Le
caractère unitaire de uk est limpide. Or pour tout j ∈ ¹1, k − 1º :
uk , u j
1
= u
bk , u j = u
bk
u
bk 1
®
ek −
k−1
X
i=1
e k , ui ui , u j
¸
=
Š
1 €
ek , u j − ek , u j u j , u j = 0.
kb
uk k
Enfin, dans la mesure où : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ), et puisque uk est combinaison
„
linéaire de u1 , . . . , uk−1 et ek , alors comme voulu : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ).
Exemple
€ p
Š
p
La famille 1 , 3(2X −1) , 5 6X 2 −6X +1 est orthonormale pour le produit scalaire (P, Q) 7−→
sur R[X ].
Z
1
P(t)Q(t) dt
0
En effet Nous allons, grâce à l’algorithme
de Gram-Schmidt, construire une famille orthonormale (P0 , P1 , P2 )
à partir de la famille LIBRE 1, X , X 2 .
Z1
1
2
• Construction de P0 : Posons : P0 =
. Comme : k1k =
dt = 1, en fait : P0 = 1.
k1k
0
7
Christophe Bertault — Mathématiques en MPSI
Z1
X − X , P0 P0
1
. Comme :
• Construction de P1 : Posons : P1 = X , P0 =
t dt = , le
X − X , P P 2
0
0 0
2
Z 1
‹2
1
1
1
1
dt =
, donc :
polynôme au numérateur vaut : X − , mais : t−
X − 2 =
2
2
12
0
p
P1 = 3(2X − 1). La famille (P0 , P1 ) est orthonormale.
Z1
2 X 2 − X 2 , P0 P0 − X 2 , P1 P1
1
. Comme : X , P0 =
t 2 dt =
• Construction de P2 : Posons : P2 = X 2 − X 2 , P P − X 2 , P P 3
0
1 1
0 0
Z1
2 p
1
1
et
X , P1 =
t 2 × 3(2t − 1) dt = p , le polynôme au numérateur vaut : X 2 − X + ,
6
2 3
0
2
Z 1
‹2
p
1
1
1
2
dt =
, donc : P2 = 5 6X 2 − 6X + 1 . La
mais : t2 − t +
X − X + 6 =
6
180
0
famille (P0 , P1 , P2 ) est orthonormale.
Essentiel en pratique, l’algorithme d’orthonormalisation de Gram-Schmidt a aussi des conséquences théoriques.
Théorème (Existence de bases orthonormales en dimension finie) Soit E 6= 0 E un espace euclidien. Alors E
possède une base orthonormale.
Démonstration De dimension finie non nulle, E possède une base, donc une base orthonormale grâce à
l’algorithme de Gram-Schmidt.
„
Théorème (Théorème de la base orthonormale incomplète en dimension finie) Soit E 6= 0 E un espace euclidien.
Toute famille orthonormale de E peut être complétée en une base orthonormale de E.
Démonstration Soit (e1 , . . . , e p ) une famille orthonormale — donc libre — de E. On peut la compléter en une
base de E car E est de dimension finie non nulle, puis orthonormaliser cette base grâce à l’algorithme de GramSchmidt. L’algorithme n’affecte pas les premiers vecteurs e1 , . . . , e p qui forment déjà une famille orthonormale,
„
donc au fond nous avons complété notre famille de départ en une base orthonormale de E.
2.4
SUPPLÉMENTAIRE ORTHOGONAL D’UN
SOUS -ESPACE VECTORIEL
Définition-théorème (Orthogonal d’une partie)
Soient E un espace préhilbertien
réel et X une partie de E. On appelle
¦
©
⊥
orthogonal de X dans E l’ensemble : X = t ∈ E/ ∀x ∈ X ,
t, x = 0 .
⊥
X est un sous-espace vectoriel de E orthogonal à X .
Par ailleurs : X ∩ X ⊥ ⊂ 0 E
et X ⊂ X ⊥⊥ .
Si F un sous-espace vectoriel de E, ce théorème montre en particulier que F et F ⊥ sont en somme
$ ATTENTION ! $
directe. Il n’est pas vrai en général, en revanche, que F et F ⊥ sont supplémentaires dans E, ils sont seulement en somme
directe. De même, il n’est pas vrai en général que : F ⊥⊥ = F . Nous verrons tout de même que ces résultats sont vrais si
F est de dimension finie, donc en particulier si E est euclidien.
Démonstration
• Montrons que X ⊥ est un sous-espace vectoriel de
E. D’abord : 0 E ∈ X ⊥ car pour tout x ∈ X :
0 , x = 0. Ensuite, soient t, t ′ ∈ X ⊥ et λ, λ′ ∈ R.
E Pour tout x ∈ X :
λt + λ′ t ′ , x = λ x, t + λ′ t ′ , x = λ.0 + λ′ .0 = 0, donc : λt + λ′ t ′ ∈ X ⊥ .
x, x = 0, donc :
• Montrons que : X ∩ X ⊥ ⊂ 0 E . Or pour tout x ∈ X ∩ X ⊥ : x ⊥ x donc :
x = 0 E par séparation.
• L’inclusion : X ⊂ X ⊥⊥ signifie juste que tout vecteur de X est orthogonal à tout vecteur de X ⊥ — ce
„
qui est évident par définition de X ⊥ .
8
Christophe Bertault — Mathématiques en MPSI
Exemple
Pour tout espace préhilbertien réel E :
0E
⊥
=E
et
E ⊥ = 0E .
Pour la seconde égalité, rappelons que 0 E EST LE SEUL VECTEUR DE E ORTHOGONAL À TOUT VECTEUR — et pourquoi ?
Pour vérifier que deux sous-espaces vectoriels de dimensions finies F et G, engendrés respectivement
En pratique par des parties X et Y , sont orthogonaux, il suffit de montrer que ces parties X et Y sont elles-mêmes orthogonales.
Exemple
Pour le produit scalaire (P, Q) 7−→ P(−1)Q(−1) + P(0)Q(0) + P(1)Q(1) sur R2 [X ] : R1 [X ]⊥ = Vect 3X 2 − 2 .
R1 [X ]=Vect(1,X )
En effet Pour tout P = aX 2 + bX + c ∈ R2 [X ] : P ∈ R1 [X ]⊥
⇐⇒
P, 1 = 0 et P, X = 0
§
(a − b + c) × 1
+ c × 1 + (a + b + c) × 1 = 0
⇐⇒
⇐⇒ 2a + 3c = 0 et 2b = 0.
(a − b + c) × (−1) + c × 0 + (a + b + c) × 1 = 0
Définition-théorème (Supplémentaire orthogonal d’un sous-espace vectoriel de dimension finie) Soient E un
espace préhilbertien réel et F un sous-espace vectoriel DE DIMENSION FINIE de E.
(i) F ⊥ est un supplémentaire de F dans E orthogonal à F et c’est même le seul. On l’appelle par conséquent LE
supplémentaire orthogonal de F dans E.
(ii)
F ⊥⊥ = F .
$ ATTENTION ! $
• Il est ici essentiel que F soit DE
DIMENSION FINIE .
• Il existe UN unique supplémentaire orthogonal mais tout plein de supplémentaires « généraux », ne l’oubliez pas.
Démonstration
(i) Nous savons déjà que :
F ∩ F ⊥ = 0E .
• Montrons que : E = F + F ⊥ , i.e. que : E ⊂ F + F ⊥ . Nous pouvons supposer : F 6= 0 E
⊥
car :
0E
= E, et comme F est de dimension finie, nous donner une base orthonormale
( f1 , . . . , f n ) de F . Soit x ∈ E. Pour tout i ∈ ¹1, nº :
®
¸
n
n
n
X
X
X
x−
x, f k f k , f i = x, f i −
x, f k f k , f i = x, f i −
x, f k δki = x, f i − x, f i = 0,
k=1
donc x −
n
X
k=1
k=1
x, f k f k est orthogonal à f1 , . . . , f n , donc élément de F ⊥ . Comme voulu :
k=1
x ∈ F + F ⊥.
• Montrons que F ⊥ est le seul supplémentaire de F dans E orthogonal à F . Soit F ′ un tel supplémentaire. Aussitôt : F ′ ⊂ F ⊥ car : F ⊥ F ′ . Inversement, soit
x ∈ F ⊥ .
Comme : E
= F + F ′ ,
alors : x = f + f ′ pour certains f ∈ F et f ′ ∈ F ′ , donc :
f , f = f + f ′ , f = x, f = 0,
′
′
puis : f = 0 E , et enfin : x = f ∈ F .
⊥⊥
′
(ii) Nous savons déjà que : F ⊂ F ⊥⊥ . Inversement,
′soit′ x ∈
F , disons
: x =′ f + f
′
⊥
⊥⊥
′
′
f ∈ F et f ∈ F . Or : x ∈ F , donc :
f , f = f + f , f = x, f = 0.
f ′ = 0 E , i.e. : x = f ∈ F .
2.5
VECTEURS
pour certains
Conclusion :
„
NORMAUX À UN HYPERPLAN ET ORIENTATION
Définition-théorème (Vecteurs normaux à un hyperplan) Soient E 6= 0 E un espace euclidien de dimension n et H
un hyperplan de E. Le sous-espace vectoriel H ⊥ est une droite dont tout vecteur non nul est appelé un vecteur normal à
H.
Par extension, pour tout hyperplan affine H de E de direction H, les vecteurs normaux à H sont aussi qualifiés de vecteurs
normaux à H .
Démonstration Comme E est de dimension finie :
hyperplan : dim H ⊥ = dim E − dim H = 1.
9
E = H ⊕ H⊥,
et par conséquent, comme H est un
„
Christophe Bertault — Mathématiques en MPSI
Explication
H⊥
Rappelons qu’un hyperplan H est par définition le noyau
d’une forme linéaire non nulle, autrement dit un ensemble décrit par une unique
équation linéaire scalaire non nulle. Comment les notions de forme linéaire et de
vecteur normal sont-elles alors liées ? Tout simplement, puisque :
¦
©
H = Vect(a)⊥ = x ∈ E/ x, a = 0 ,
a
H
0E
b
H est le noyau de la forme linéaire non nulle x 7−→ x, a . En outre, si nous nous donnons une base orthornormale (e1 , . . . , en )
de E et si a a pour coordonnées (a1 , . . . , an ) dans cette base, l’équation :
x, a = 0 qui peut servir à définir H s’écrit
aussi : a1 x 1 + . . . + an x n = 0 sous forme analytique. Nous retrouvons là l’équation typique d’un hyperplan et le fait que
les coefficients a1 , . . . , an d’une telle équation définissent naturellement un vecteur normal.
Exemple
• Dans l’espace euclidien canonique R2 , l’hyperplan AFFINE H d’équation : 3x + 2 y = 1 admet pour direction
l’hyperplan VECTORIEL H d’équation : 3x + 2 y = 0, équation qu’on peut réécrire comme un produit scalaire :
(x, y)·(3, 2) = 0. A fortiori, H est l’ensemble des vecteurs de R2 orthogonaux à (3, 2) : H = (3, 2)⊥ . On qualifie
le vecteur (3, 2) de vecteur normal à H (ou à H ).
• De même, dans l’espace euclidien canonique R3 , l’hyperplan AFFINE H d’équation : x − y + 2z = 3 admet pour
direction l’hyperplan VECTORIEL H d’équation : x − y + 2z = 0, équation qu’on peut réécrire comme un produit
scalaire : (x, y, z) · (1, −1, 2) = 0. A fortiori, H est l’ensemble des vecteurs de R3 orthogonaux à (1, −1, 2) :
H = (1, −1, 2)⊥ . On qualifie le vecteur (1, −1, 2) de vecteur normal à H (ou à H ).
Définition-théorème (Orientation d’un hyperplan par un vecteur normal) Soient E 6= 0 E un espace euclidien
ORIENTÉ de dimension n et H un hyperplan de E.
L’espace vectoriel E a beau être orienté, son sous-espace vectoriel H ne l’est pas a priori. Le choix supplémentaire d’un
vecteur normal a à H donne en revanche à H une orientation de la manière suivante :
Une base (h1 , . . . , hn−1 ) de H est tenue pour directe si et seulement si la base (h1 , . . . , hn−1 , a) de E l’est.
Démonstration On a défini au chapitre « Déterminants » une relation « avoir la même orientation » sur
l’ensemble des bases d’un R-espace vectoriel quelconque de dimension finie. L’orientation de cet espace consistait alors en le choix arbitraire de l’une des deux classes d’équivalence de cette relation, considérée comme la
classe des bases directes. Notre orientation de H à partir de l’orientation de E et d’un vecteur normal a à H
respecte-t-elle cette définition ?
Donnons-nous deux bases B = (h1 , . . . , hn−1 ) et B ′ = (h′1 , . . . , h′n−1 ) de H. Les familles Ba = (h1 , . . . , hn−1 , a)
‚
Œ
MatB (B ′ ) 0
′
′
′
′
et Ba = (h1 , . . . , hn−1 , a) sont alors deux bases de E et : MatBa (Ba ) =
. En particulier :
0
1
detBa (Ba′ ) = detB (B ′ ), donc ces deux déterminants ont le même signe. En termes d’orientation, cela signifie
que B ′ a la même orientation que B si et seulement si Ba′ a la même orientation que Ba . Via le choix d’un
„
vecteur normal a, cette équivalence justifie l’idée que l’orientation de E se transmet à H.
Explication
H⊥
Les hyperplans
d’un R-espace vectoriel orienté ne sont pas
naturellement orientés quant à eux, car par
exemple en dimension 3, on ne perçoit pas
l’orientation d’un plan de la même manière
selon le demi-espace depuis lequel on observe ce plan. Se donner un vecteur normal d’un hyperplan, cela revient justement
à choisir un demi-espace parmi les deux que
l’hyperplan délimite, donc à choisir un point
de vue à partir duquel on peut envisager une
orientation de l’hyperplan.
H⊥
a
H
0E
b
H
Les deux orientations
possibles d’un hyperplan
par la donnée
d’un vecteur normal
10
0E
a
b
Christophe Bertault — Mathématiques en MPSI
3
PROJECTION ORTHOGONALE SUR UN SOUS-ESPACE VECTORIEL
DE DIMENSION FINIE
3.1
PROJECTIONS
ET SYMÉTRIES ORTHOGONALES
Définition (Projection orthogonale, symétrie orthogonale, réflexion) Soient E un espace préhilbertien réel et F un
sous-espace vectoriel DE DIMENSION FINIE de E.
• On appelle projection orthogonale sur F ou projecteur orthogonal sur F la projection sur F de direction F ⊥ .
• On appelle symétrie orthogonale par rapport à F la symétrie par rapport à F parallèlement à F ⊥ .
On parle plutôt de réflexion par rapport à F lorsque F est un hyperplan de E.
Explication
F⊥
E = F ⊕ F ⊥.
Comme F est de dimension finie :
f
′
x = f + f′
F⊥
f
′
x = f + f′
F
0E
b
f
F
0E
Symétrie
orthogonale
b
f = p(x)
−f ′
Projection
orthogonale
s(x)
Théorème (Expression d’une projection orthogonale dans une base orthonormale) Soient E un espace préhilbertien
réel, F un sous-espace vectoriel DE DIMENSION FINIE non nulle de E et ( f1 , . . . , f n ) une base orthonormale de F .
n
X
x, f k f k .
Si on note p la projection orthogonale sur F , alors pour tout x ∈ E : p(x) =
k=1
Explication
Dans ce résultat, « x, f k f k » représente la composante de x selon le vecteur f k .
Démonstration
Ainsi :
x=
n
X
k=1
|
Soit x ∈ E. Le vecteur x −
x, f k f k + x −
{z
∈F
}
|
n
X
k=1
n
X
k=1
x, f k f k ,
{z
x, f k f k est orthogonal à f1 , . . . , f n , donc est élément de F ⊥ .
}
et donc :
p(x) =
n
X
x, f k f k .
„
k=1
∈F ⊥
On peut calculer essentiellement de deux manières un projeté orthogonal. Donnons-nous E un es En pratique pace préhilbertien réel, F un sous-espace vectoriel de dimension finie non nulle de E, ( f1 , . . . , f n ) une base PAS FORCÉMENT
ORTHONORMALE de F et x ∈ E. Comment calculer le projeté orthogonal p(x) de x sur F ? Si la base ( f1 , . . . , f n ) est orthonormale, on peut bien sûr utiliser le théorème précédent, mais sinon ?
• Première stratégie : On orthonormalise ( f1 , . . . , f n ) grâce à l’algorithme de Gram-Schmidt et du coup on peut utiliser
le théorème précédent.
n
X
λi f i , puis
• Deuxième stratégie : On introduit les coordonnées (λ1 , . . . , λn ) de p(x) dans ( f1 , . . . , f n ) : p(x) =
i=1
on les calcule grâce aux relations :
x − p(x), f j = 0 pour tout j ∈ ¹1, nº. Ces relations expriment l’appartenance
⊥
de x − p(x) à F et fournissent un système de n équations à n inconnues que l’on n’a plus qu’à résoudre.
11
Christophe Bertault — Mathématiques en MPSI
Exemple
On note F le sous-espace vectoriel Vect(sin, cos) de C [0, 2π], R . Le projeté orthogonal de l’identité Id sur F
Z 2π
pour le produit scalaire ( f , g) 7−→
0
f (t)g(t) dt est la fonction t 7−→ −2 sin t.
En effet Nous aurons besoin d’un certain nombre de produits scalaires, calculons-les de prime abord pour
que l’essentiel des stratégies adoptées soit bien lisible ensuite.
Z
2π
2
k sin k =
sin t dt =
0
En outre :
Z 2π
Enfin :
0
Z
˜
•
1 − cos(2t)
t sin(2t) t=2π
= π,
dt =
−
2
2
4
t=0
2π
sin2 t
2
k cos k2 = π.
et de même :
t=2π
= 0, donc la famille (sin, cos) est orthogonale.
sin t cos t dt =
t=0
Z 2π
”
— t=2π
t=2π
−
teit dt = t × (−i)eit
(−i)eit dt = −2iπ + i (−i)eit t=0 = −2iπ + 0 = −2iπ, donc :
sin, cos =
0
t=0
0
Z
2π
2
Z
Id, sin =
0
‚Z
2π
t sin t dt = Im
0
Œ
2π
0
teit dt = Im(−2iπ) = −2π
et de même :
Id, cos = 0.
• Première stratégie : On commence par orthonormaliser la famille LIBRE (sin, cos) de F grâce à l’algorithme de Gram-Schmidt.
Cette‹famille
 étant déjà
‹ orthogonale, on n’a par chance qu’à la normaliser, et

sin cos
cos
sin
= p ,p
,
est une base orthonormale de F . Le projeté orthogonal
en l’occurrence
k sin k k cos k
π
π
de Id sur F est finalement la fonction :
­
­
·
·
Id, sin
Id, cos
cos cos
sin sin
Id, p
sin +
cos = −2 sin .
p + Id, p
p =
π
π
π
π
π
π
• Deuxième stratégie : Notons p(Id) le projeté orthogonal de Id sur F et (λ, µ) ses coordonnées dans la
base (sin, cos) de F : p(Id) = λ sin +µ cos. Appuyons-nous sur le fait que : Id − p(Id) ∈ F ⊥ .
0 = Id − p(Id), sin = Id − λ sin −µ cos, sin = Id, sin − λk sin k2 − µ cos, sin = −2π − λπ
et
0 = Id − p(Id), cos = Id − λ sin −µ cos, cos = Id, cos − λ sin, cos − µk cos k2 = −µπ.
Conclusion :
Exemple
λ = −2
et
µ = 0,
donc :
p(Id) = −2 sin.
H⊥
Soient E 6= 0 E un espace euclidien et H un hyperplan de E de
vecteur normal a. On note
p la projection orthogonale sur H. Alors pour tout
x, a a
x ∈ E : p(x) = x −
. Si de plus a est unitaire, cette expression
2
kak
devient : p(x) = x − x, a a. Tout simplement, PROJETER x SUR H REVIENT
⊥
À LUI ÔTER SA COMPOSANTE SELON H .
H
0E
En effet Notons p′ la projection orthogonale sur Vect(a) = H ⊥ .
‹
­
·

x,
a
a
a
a
a
est une base orthonormale de Vect(a) : p′ (x) = x,
=
Comme
kak
kak kak
kak2
d’où l’expression de p puisque : p + p′ = Id E .
3.2
DISTANCE
x
­
a
kak
x,
a
kak
·
b
b
p(x)
pour tout x ∈ E,
À UN SOUS -ESPACE VECTORIEL DE DIMENSION FINIE
Définition-théorème (Distance à une partie) Soient E un espace préhilbertien réel, A une partie non vide de E et
x ∈ E. On appelle distance de x à A , notée d(x, A ), le réel : d(x, A ) = inf d(x, a).
a∈A
Intuitivement, la distance d’un vecteur x à une partie A est la plus petite distance séparant x d’un
Explication élément de A . Mais comment savoir si une telle « plus petite distance » existe ? En fait, elle n’existe pas nécessairement et
c’est pourquoi on n’a surtout pas posé : d(x, A ) = min d(x, a), on a utilisé une borne inférieure.
a∈A
12
a
kak
Christophe Bertault — Mathématiques en MPSI
b
La distance de x à A
est ici un minimum
(i.e. elle est atteinte).
x
x
b
d(x, A )
d(x, A )
A
La distance de x à A
est ici seulement une borne inférieure.
A
Démonstration
Le réel d(x, A ) est bien défini d’après la propriété de la borne inférieure, car l’ensemble
d(x, a) a∈A est une partie de R non vide : car A 6= ∅, et minorée par 0.
„
Théorème (Distance à un sous-espace vectoriel de dimension finie)
Soient E un espace préhilbertien réel, F un sous-espace vectoriel
DE DIMENSION FINIE de E et x ∈ E. On note p la projection
orthogonale sur F .
• Tout d’abord : d(x, F ) = x − p(x) = d x, p(x) .
La distance de x à F est donc un minimum. Ce minimum
n’est atteint qu’en le projeté orthogonal de x sur F .
2
• Par ailleurs : d(x, F )2 = kxk2 − p(x) .
Démonstration
∈Ker p = F ⊥
F⊥
x
x − p(x)
d(x, F ) = x − p(x)
F
0E
b
p(x)
∈Im p = F
}| { z }| {
• Pour tout f ∈ F : x − f = x − p(x) + p(x) − f , donc aussitôt d’après le théorème de Pythagore :
2
2 kx − f k2 = x − p(x) + p(x) − f .
• Montrons à présent l’égalité : d(x, F ) = x − p(x) = d x, p(x) . Posons : D = d(x, f ) f ∈F .
— Pour commencer : x − p(x) = d x, p(x) ∈ D car p(x) ∈ F .
Ç
x − p(x)2 + p(x) − f 2 ¾ x − p(x), donc
— Ensuite,
pour
tout
f
∈
F
:
d(x,
f
)
=
kx
−
f
k
=
x − p(x) minore D.
Conclusion : d x, p(x) = min D, donc a fortiori : d x, p(x) = inf D = d(x, F ).
• Enfin, pour tout f ∈ F \ p(x) : p(x) − f > 0, donc :
r
2 2 d(x, f ) = x − p(x) + p(x) − f > x − p(x).
z
Comme voulu, la distance d(x, F ) n’est atteinte qu’en p(x).
„
Théorème (Distance à un hyperplan affine) Soient E un espace euclidien, H un hyperplan affine passant par A et de
−→ vecteur normal UNITAIRE a. Pour tout M ∈ E : d(M , H ) = AM · a.
Démonstration
Notons H la direction de H et p la projection
orthogonale sur H. Nous avons vu dansun exemple précédent
que pour tout x ∈ E : p(x) = x − x, a a. Du coup :
€−→ Š
d(M , H ) = d(M , A + H) = inf d(M , A + h) = inf d AM , h
h∈H
h∈H
€−→ Š −→ ¬−→ ¶ −→
= d AM , H = AM − p AM = AM , a a,
−→ donc comme voulu : d(M , H ) = AM , a .
Exemple
M
a
H
A
b
−→ AM · a
b
H
„
Dans l’espace euclidien canonique R3 , le point (4, 3, 2) est à distance 4 du plan d’équation :
3
Le plan P d’équation :
2x + y + 2z = 3.
2x + y + 2z = 3 est un hyperplan affine de R passant par A = (1, 1, 0)
(2, 1, 2)
−→
et de vecteur normal unitaire a =
. Comme voulu, si on pose M = (4, 3, 2) : AM = (3, 2, 2), donc :
3
−→ d(M , P ) = AM · a = 4.
En effet
13
Christophe Bertault — Mathématiques en MPSI
Exemple
y
• Il est courant qu’on ait à expliquer — en physique, en économie ou dans n’importe quelle discipline expérimentale — une certaine quantité y par une autre
quantité x. En vue de cette explication, supposons qu’on ait fait n mesures expérimentales (x 1 , y1 ), . . . , (x n , yn ) du couple (x, y). Le monde étant bien fait,
il arrive souvent que la variable y, dite expliquée, soit une fonction affine de la
variable x, dite explicative. Le nuage des couples (x 1 , y1 ), . . . , (x n , yn ) est alors
assez proche d’une droite.
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
x
Cela dit, comment déduit-on proprement d’un nuage de points l’équation d’une droite de meilleure approximation
comme celle que nous avons représentée ci-dessus ? Nous cherchons deux réels m et p pour lesquels la droite d’équation :
y = mx + p est la plus proche possible du nuage de points. Ce problème est appelé un problème de
régression linéaire simple — linéaire en raison de la forme : y = mx + p cherchée, simple parce que y est supposée
ne dépendre que d’une seule variable explicative x.
• Pour tout i ∈ ¹1, nº, notre mesure de y pour x = x i nous a fourni
la valeur yi , mais la valeur « sans erreur » que
nous aurions dû trouver est mx i + p. L’écart entre les deux vaut yi − mx i − p, mais ce n’est pas cet écart ponctuel
qui nous intéresse, nous nous intéressons plutôt à un écart global entre le nuage de points et la droite d’équation :
y = mx + p. Or comment définir cet écart ? Plusieurs définitions sont possibles, par exemple : max yi − mx i − p,
1¶i¶n
v
uX
n
n
X
y −mx −p, ou : t ( y − mx − p)2 . Nous travaillerons désormais dans le cadre de cette troisième
ou :
i
i
i
i
i=1
i=1
possibilité. La méthode de régression linéaire correspondante est appelée la méthode
v des moindres carrés.
uX
n
t
• Nous cherchons donc des réels m et p — s’il en existe — pour lesquels la quantité
( yi − mx i − p)2 est minimale,
i=1
n
et c’est précisément maintenant que les produits scalaires
‹ en scène. Dans l’espace euclidien canonique R ,
 entrent
1
1
et F = Vect(X , U).
,...,
posons : X = (x 1 , . . . , x n ), Y = ( y1 , . . . , yn ), U =
n
n
v
uX
n
t
( yi − mx i − p)2 = inf Y − mX − npU = inf d(Y, mX + npU) = inf d(Y, Z) = d(Y, F ).
inf
m,p∈R
m,p∈R
i=1
m,p∈R
Z∈F
Or d’après le théorème précédent, si nous notons p la projection orthogonale de Rn sur F , la distance d(Y, F ) est
atteinte en un et un seul point, à savoir : p(Y ) = mX + npU où m et p sont les deux réels que nous cherchons.
• Par définition de p(Y ) : Y − p(Y ) ∈ F ⊥ , donc :
X , Y − p(Y ) = 0 et
U, Y − p(Y ) = 0, ce qu’on peut aussi
1
écrire ainsi, sachant que kUk2 = : mkX k2 + np X , U = X , Y
et m X , U + p = Y, U
— deux équations,
n
X , Y − n X , U Y, U
et p = Y, U − m X , U . Posons alors :
deux inconnues. En particulier : m =
2
kX k2 − n X , U
1X
xi
E(x) = X , U =
n i=1
1X
E( y) = Y, U =
yi
n i=1
n
(moyenne empirique des x i ),
n
(moyenne empirique des yi ),
n
X
2
1 X − nE(x)U 2 = 1
x i − E(x)
(variance empirique des x i )
n
n i=1
n
1X
1 x i − E(x) yi − E( y)
(covariance empirique des x i et des yi ).
X − nE(x)U, Y − nE( y)U =
cov(x, y) =
n
n i=1
V(x) =
et
Il n’est alors pas dur de vérifier que :
Conclusion :
m=
cov(x, y)
V(x)
et
2
nV(x) = kX k2 − n X , U
et
n cov(x, y) = X , Y − n X , U Y, U .
p = E( y) − mE(x).
y
b
b
b
b
• Le problème de ce qui précède, c’est que toute variable expliquée y ne dépend pas de manière affine de sa variable explicative x. La méthode des moindres carrés est-elle caduque
au-delà ? Heureusement non, et nous allons nous en convaincre sur un exemple.
Sur la figure ci-contre, on peut émettre l’hypothèse d’une relation de la forme : y = λx α
entre x et y où λ et α sont deux réels à déterminer. On peut se ramener ici au cas affine
en réécrivant les choses ainsi : ln y = α ln x + ln λ. Dans ce cas simple, ce sont les
réels α et ln λ qu’on calculera par régression linéaire simple.
b
b
b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
x
14
Téléchargement