Christophe Bertault — Mathématiques en MPSI ESPACES PRÉHILBERTIENS RÉELS Dans ce chapitre, on travaille seulement avec le corps de base R. 1 PRODUIT SCALAIRE ET NORME Définition (Produit scalaire, espace préhilbertien réel, espace euclidien) • Soit E un R-espace vectoriel. On appelle produit scalaire sur E toute forme bilinéaire symétrique définie positive, i.e. toute application ·, · : E × E −→ R : — bilinéaire : ∀x, y, z ∈ E, ∀λ, µ ∈ R, λx + µ y, z = λ x, z + µ y, z et x, λ y + µz = λ x, y + µ x, z , — symétrique : ∀x, y ∈ E, y, x = x, y , — définie : ∀x ∈ E, x, x = 0 =⇒ x = 0 E (propriété de séparation), — positive : ∀x ∈ E, x, x ¾ 0. Le produit scalaire x, y est aussi parfois noté : (x| y) ou x · y. • Un espace vectoriel réel muni d’un produit scalaire est appelé un espace préhilbertien réel. Un espace préhilbertien réel DE DIMENSION FINIE est appelé un espace euclidien. Définition déroutante ! Nous n’avons à ce stade encore jamais parlé en algèbre linéaire d’angles et Explication de normes. Mine de rien, nous sommes en train → → donc− de définir le concept de produit scalaire indépendamment de toute → → → relation du type : − u ·− v = − u .− v cos → u ,− v . En réalité, dans la théorie que nous nous apprêtons à développer, le produit scalaire est premier et ce sont les notions de norme et d’angle qui viennent après. Pour montrer la bilinéarité d’un produit scalaire potentiel, la linéarité par rapport à une variable En pratique seulement est suffisante si on a pris la peine de démontrer la symétrie avant. Petite remarque au passage : x, 0 E = 0 E , x = 0 pour tout x ∈ E, par bilinéarité du produit scalaire. Définition-théorème (Produit scalaire canonique sur Rn ) L’application (X , Y ) 7−→ t X Y = scalaire sur Rn appelé son produit scalaire canonique. n X x k yk est un produit k=1 Ouf, nous retrouvons bien ici les produits scalaires auxquels nous sommes habitués dans le plan R2 Explication → → → → 3 et l’espace R . Par exemple, pour tous vecteurs − u = (x, y) et − u ′ = (x ′ , y ′ ) de R2 : − u ·− u ′ = x x ′ + y y ′. Démonstration • Symétrie : Pour tous X , Y ∈ Rn : t XY = n X x k yk = k=1 n X yk x k = t Y X . k=1 n • Bilinéarité : Par symétrie, la linéarité par rapport à la deuxième variable suffit. Pour tous X , Y, Z ∈ R t t t et λ, µ ∈ R, par bilinéarité du produit matriciel : X λY + µZ = λ X Y + µ X Z . n • Positivité et séparation : Pour tout X ∈ R : alors : xk = 0 pour tout k ∈ ¹1, nº, i.e. : 1 t XX = X = 0. n X k=1 ¾0 x k2 ¾ 0, et si : t n z}|{ X x k2 = 0, XX = k=1 Christophe Bertault — Mathématiques en MPSI Il $ ATTENTION ! $ peut exister de nombreux produits scalaires sur un même espace vectoriel. Par exemple, l’applica2 1 tion (X , Y ) 7−→ t X Y est un produit scalaire sur R2 distinct du produit scalaire usuel. 1 2 Symétrie et bilinéarité évidentes. Ensuite, pour tout X = (x, y) ∈ R2 : 2x + y 2 1 t X X= x y = 2x 2 + 2x y + 2 y 2 = x 2 + y 2 + (x + y)2 ¾ 0, 1 2 x + 2y 2 1 et si : t X X = 0, alors : x = y = x + y = 0, donc : X = (0, 0). 1 2 En effet Z Exemple Soient a, b ∈ R avec : a < b. L’application ( f , g) 7−→ b a f (t)g(t) dt est un produit scalaire sur C [a, b], R . En effet • Symétrie et bilinéarité : Évidentes. • Positivité et séparation : Pour tout f ∈ C [a, b], R : alors comme f est CONTINUE et POSITIVE OU NULLE : Z Z b f (t)2 dt ¾ 0 f (t)2 dt = 0, a f2=0 b et si : a sur [a, b] et donc : f = 0. Muni du produit scalaire défini ci-dessus, C [a, b], R n’est pas un espace euclidien car ce n’est pas $ ATTENTION ! $ un R-espace vectoriel de dimension finie. C’est seulement un espace préhilbertien réel. Exemple n X Soient x 0 , . . . , x n ∈ R DISTINCTS. L’application (P, Q) 7−→ P(x k )Q(x k ) est un produit scalaire sur Rn [X ]. k=0 En effet • Symétrie et bilinéarité : Symétrie évidente, donc la linéarité par rapport à la première variable suffit. n n n X X X Pour tous P, Q, R ∈ Rn [X ] et λ, µ ∈ R : λP +µQ (x k )R(x k ) = λ P(x k )R(x k )+µ Q(x k )R(x k ). k=0 • Positivité et séparation : Pour tout P ∈ Rn [X ] : n X k=0 2 P(x k ) ¾ 0, et si : k=0 P, P = k=0 n X P(x k )2 = 0, k=0 alors : P(x k ) = 0 pour tout k ∈ ¹0, nº, autrement dit x 0 , . . . , x n sont des racines de P. Le polynôme P possède alors au moins n + 1 racines distinctes, or : ∂ ◦ P ¶ n, donc : P = 0. Exemple L’application (A, B) 7−→ tr t AB est un produit scalaire sur Mn (R) — concrètement : Si on n’oublie pas que : 2 Mn (R) = Rn , X tr t AB = a i j bi j . 1¶i, j¶n 2 ce produit scalaire n’est jamais que le produit scalaire canonique de Rn . En effet • Symétrie et bilinéarité : Symétrie évidente, donc la linéarité par rapport à la première variable suffit. Pour tous A, B, C ∈ Mn (R) et λ, µ ∈ R, par bilinéarité du produit matriciel et linéarité de la trace : tr t A λB + µC = tr λ t AB + µ t AC = λ tr t AB + µ tr t AC . X ai2j ¾ 0, et si : tr t AA = 0, • Positivité et séparation : Pour tout A ∈ Mn (R) : tr t AA = 1¶i, j¶n alors : ai j = 0 pour tous i, j ∈ ¹1, nº, i.e. : A = 0. Définition (Norme et distance associées à un produit scalaire) Soit E un espace préhilbertien réel. • On appelle norme (euclidienne) sur E associée au produit scalaire ·, · l’application k · k : E −→ R+ définie pour tout q x ∈ E par : kxk = x, x . On dit qu’un vecteur x de E est unitaire si : kxk = 1. • On appelle distance (euclidienne) sur E associée au produit scalaire ·, · l’application d : E × E −→ R+ définie pour tous x, y ∈ E par : d(x, y) = kx − yk. $ ATTENTION ! $ La notion de distance n’est pas forcémentcelle qu’on croit ! La distance dépend d’un CHOIX de p 2 1 produit scalaire. Par exemple, pour le produit scalaire (X , Y ) 7−→ t X Y sur R2 : (1, 0) = 2 6= 1. 1 2 2 Christophe Bertault — Mathématiques en MPSI Explication Qui dit « bilinéarité » dit « identités remarquables ». En l’occurrence, pour tous x, y ∈ E : kx + yk2 = kxk2 + 2 x, y + k yk2 et x + y, x − y = kxk2 − k yk2 . On peut aussi « inverser » ces relations et récupérer le produit scalaire en fonction de la norme. On obtient alors ce qu’on 1 1 appelle des identités de polarisation. Par exemple : kx + yk2 − kxk2 − k yk2 = kx + yk2 − kx − yk2 . x, y = 2 4 Théorème (Inégalité de Cauchy-Schwarz, inégalité triangulaire) Soient E un espace préhilbertien réel et x, y, z ∈ E. (i) Inégalité de Cauchy-Schwarz : x, y ¶ kxk.k yk, avec égalité si et seulement si x et y sont colinéaires. (ii) Inégalité triangulaire, version norme : kxk − k yk ¶ kx + yk ¶ kxk + k yk. L’inégalité de droite est une égalité si et seulement si x et y sont colinéaires DE MÊME SENS. Inégalité triangulaire, version distance : d(x, y) − d( y, z) ¶ d(x, z) ¶ d(x, y) + d( y, z). Si nous avions une définition propre du produit scalaire en termes de normes et d’angles, l’inégalité Explication → − → − → − → → de Cauchy-Schwarz serait une pure trivialité : − u ·→ v = − u . → v cos − u ,− v ¶ − u . → v . Dans notre contexte, cette inégalité est justement remarquable parce que nous n’avons pas encore de définition propre des angles orientés. Démonstration (i) Si y = 0 E : x, y = 0 ¶ 0 = kxk.k yk et dans ce cas d’égalité, x et y sont clairement colinéaires. 2 Supposons à présent y 6= 0 E . La fonction t 7−→ x + t y = kxk2 + 2t x, y + t 2 k yk2 est alors polynomiale de degré EXACTEMENT 2, et comme elle est positive ou nulle surtout R, son discriminant est 2 2 2 négatif ou nul : 4 x, y − 4kxk k yk ¶ 0, d’où le résultat : x, y ¶ kxk.k yk. À quelle condition a-t-on en fait une égalité ? L’inégalité est une égalité si et seulement si le discriminant 2 calculé est nul, i.e. si et seulement si la fonction t 7−→ x + t y s’annule. Cela revient à dire que : x + t 0 y = 0 E pour un certain t 0 ∈ R, i.e. que x et y sont colinéaires. 2 (i) (ii) D’abord : kx + yk2 = kxk2 + 2 x, y + k yk2 ¶ kxk2 + 2kxk.k yk + k yk2 = kxk + k yk , ensuite on passe à la racine carrée. À quelle condition a-t-on en fait une égalité ? Si et seulement si : x, y = kxk.k yk. Les vecteurs x et y sont alors colinéaires d’après (i), et quitte à les on peut supposer que : y = λx pour permuter, un certain λ ∈ R. Aussitôt : λkxk2 = x, λx = x, y = kxk.k yk = kxk.kλxk = |λ|.kxk2 , donc soit x est nul, soit : λ = |λ|, i.e. : λ ¾ 0. Dans les deux cas, x et y sont colinéaires DE MÊME SENS. Réciproque immédiate. Pour l’inégalité généralisée : kxk = (x + y) + (− y) ¶ kx + yk + k − yk = kx + yk + k yk, donc : kxk − k yk ¶ kx + yk, Exemple Pour tous x 1 , . . . , x n ∈ R : et de même : 2 n X xk k=1 n X ¶n k yk − kxk ¶ kx + yk. x k2 , x1 = . . . = xn. avec égalité si et seulement si : k=1 En effet Simple application de l’inégalité de Cauchy-Schwarz aux vecteurs (x 1 , . . . , x n ) et (1, . . . , 1) de Rn pour le produit scalaire canonique. Exemple Soient a, b ∈ R avec : a < b. Pour tout f ∈ C 1 [a, b], R : v uZ t 2 2 f (b) − f (a) ¶ 2 Appliquons l’inégalité de Cauchy-Schwarz à f et f ′ dans l’espace Z Z b b ′ f (t) f (t) dt ¶ muni du produit scalaire (u, v) 7−→ u(t)v(t) dt : a a En effet On conclut en calculant simplement l’intégrale de gauche. 3 b f (t)2 dt v uZ t a b f ′ (t)2 dt. a préhilbertien réel C [a, b], R v v uZ b uZ b t t f (t)2 dt f ′ (t)2 dt. a a Christophe Bertault — Mathématiques en MPSI Exemple Soit (Ω, P) un espace probabilisé fini. L’application (X , Y ) 7−→ E(X Y ) est une forme bilinéaire symétrique positive sur le R-espace vectoriel RΩ des variables aléatoires réelles sur Ω, MAIS CE N’EST PAS FORCÉMENT UN PRODUIT SCALAIRE . C’en est un si et seulement si pour tout ω ∈ Ω : P ω > 0. L’application (X , Y ) 7−→ E(X Y ) a-t-elle la propriété de séparation ? C’est toute la question. — Si : P ω > 0 pour tout ω ∈ Ω, alors pour toute variable aléatoire X ∈ RΩ , si : E X 2 = 0, X alors : P ω X (ω)2 = 0, donc : ∀ω ∈ Ω, X (ω) = 0, donc : X = 0. ω∈Ω — Si (X , Y ) 7−→ E(X Y ) est un produit scalaire, alors pour tout ω ∈ Ω : P ω = E 1{ω} = E 12{ω} > 0. En effet Théorème (Inégalité de Cauchy-Schwarz pour les variables aléatoires) X et Y deux variables aléatoires sur Ω. Alors : Ç Ç E(X Y ) ¶ E X 2 E Y2 . En particulier : Soient (Ω, P) un espace probabilisé fini et cov(X , Y ) ¶ σ(X ) σ(Y ). Démonstration • Cas où E Y 2 6= 0 : On peut reprendre ici à l’identique la preuve précédente de l’inégalité de CauchySchwarz — la propriété de séparation du produit scalaire n’y est pas utilisée. • Cas où E Y 2 = 0 : La fonction t 7−→ E (X + t Y )2 = E X 2 + 2tE(X Y ) est à la fois affine et positive ou nulle sur tout R, donc sonq coefficient directeur est nul : E(X Y ) = 0, ce qui nous donne comme q E Y2 . voulu : E(X Y ) = 0 ¶ 0 = E X 2 2 r 2 r Enfin : cov(X , Y ) = E X − E(X ) Y − E(Y ) ¶ E X − E(X ) E Y − E(Y ) = σ(X ) σ(Y ). Exemple 2 2.1 p E |X | ¶ V(X ). q p En effet D’après l’inégalité de Cauchy-Schwarz : E |X | = E |X | × 1 ¶ E X 2 E(1), p q 2 2 centrée : E |X | ¶ E X − E(X ) = V(X ). Pour toute variable aléatoire centrée X : et comme X est ORTHOGONALITÉ VECTEURS ORTHOGONAUX, FAMILLES ORTHOGONALES / ORTHONORMALES Définition (Vecteurs orthogonaux, parties orthogonales, familles orthogonales/orthonormales) Soient E un espace préhilbertien réel, x, y ∈ E, X et Y deux parties de E et (x i )i∈I une famille de vecteurs de E. • On dit que x et y sont orthogonaux si : x, y = 0, ce qu’on note : x ⊥ y. • On dit que les parties X et Y sont orthogonales, ce qu’on note : X ⊥ Y , si pour tous x ∈ X et y ∈ Y : x, y = 0. • On dit que la famille (x i )i∈I est orthogonale si pour tous i, j ∈ I DISTINCTS : x i , x j = 0. • On dit que la famille (x i )i∈I est orthonormale (ou orthonormée) si elle est orthogonale et constituée de vecteurs unitaires, i.e. si pour tous i, j ∈ I : x i , x j = δi j . Notre théorie géométrique a définitivement la tête en bas. Jusqu’ici, pour vous, la notion d’orthogo Explication nalité était première et le produit scalaire second. C’est le contraire qui est vrai à présent, la notion d’orthogonalité repose sur la définition préalable d’un produit scalaire. En particulier, à chaque produit produit scalaire est associée une notion d’orthogonalité, ce qui fait que les angles droits ne sont pas droits absolument, mais relativement. Exemple Pour le produit scalaire canonique de Rn , la base canonique (Ei )1¶i¶n de Rn est orthonormale car comme on le vérifie aisément, pour tous i, j ∈ ¹1, nº : t Ei E j = δi j . 4 Christophe Bertault — Mathématiques en MPSI Le résultat suivant est à la fois trivial et essentiel. Théorème (Vecteurs orthogonaux à tout vecteur) Dans un espace préhilbertien réel, le vecteur nul est le seul vecteur orthogonal à tout vecteur. Démonstration Soient E un espace préhilbertien réel et x ∈ E. Si x est orthogonal à tout vecteur de E, alors x est en particulier orthogonal à. . . lui-même : x, x = 0, et ainsi : x = 0 E par séparation. 2 1 Exemple Pour le produit scalaire (X , Y ) 7−→ X Y sur R2 , la base canonique n’est pas orthonormale, mais 1 2 (1, 0) (1, −2) en est une comme on le vérifie aisément. Cela nous fait apparemment un drôle d’angle la famille p , p 2 6 droit mais vous devez considérer que c’en est bel et bien un — c’est simplement votre œil qui n’est pas adapté. − → t − → u b − → v La famille des fonctions t 7−→ sin(nt), n décrivant N∗ , est orthonormale dans C [0, 2π], R pour le produit Z 2π 1 scalaire ( f , g) 7−→ f (t)g(t) dt. π 0 Z 2π Z 2π 1 1 1 − cos(2nt) 1 sin(2nt) t=2π 2 ∗ En effet Pour tout n ∈ N : sin (nt) dt = = 1, et dt = 1 − π 0 π 0 2 π 4n t=0 Z 2π Z 2π 1 1 sin(mt) sin(nt) dt = cos (m − n)t − cos (m + n)t dt pour tous m, n ∈ N∗ DISTINCTS : π 0 2π 0 t=2π sin (m + n)t 1 sin (m − n)t = − = 0. 2π m−n m+n Exemple t=0 Exemple Dans C [−1, 1], R , l’ensemble des fonctions paires et l’ensemble des fonctions impaires sont deux sous-espaces Z1 vectoriels orthogonaux pour le produit scalaire ( f , g) 7−→ En effet f (t)g(t) dt. −1 Z Pour toutes fonctions p ∈ C [−1, 1], R paire et i ∈ C [−1, 1], R impaire : 1 −1 p(t)i(t) dt = 0. | {z } impaire Théorème (Propriétés des familles orthogonales) Soit E un espace préhilbertien réel. (i) Théorème de Pythagore : Pour tous x, y ∈ E, x et y sont orthogonaux si et seulement 2 si : kx + yk2 = kxk2 + k yk2 . n n X X kx i k2 . xi = En outre, pour toute famille orthogonale (x 1 , . . . , x n ) de E : i=1 i=1 x+ b y b y b x (ii) Toute famille orthogonale de vecteurs NON NULS de E est libre. En particulier, si E est de dimension finie n 6= 0, toute famille famille orthonormale de n vecteurs de E est déjà une BASE orthonormale de E. Démonstration (i) Tout simplement : 2 n n n X X X X kx i k2 . xi = kx i k2 + 2 xi , x j = i=1 {z } | i=1 i=1 1¶i< j¶n =0 (ii) Soient (x 1 , . . . , x n ) une famille orthogonale de vecteurs non de E et¸λ1 , . . . , λn ∈ R pour lesquels : ® nuls n n n X X X λk x k , x i = λk x k = 0 E . Pour tout i ∈ ¹1, nº : 0 = 0 E , x i = λk x k , x i = λi kx i k2 , k=1 k=1 donc comme x i 6= 0 E : kx i k 6= 0, et donc : λi = 0. k=1 La famille (x 1 , . . . , x n ) est ainsi libre. Pour le cas particulier, toute famille orthonormale de E est libre comme on vient de le voir puisque ses vecteurs — unitaires — sont non nuls, et bien sûr une telle famille est une base de E si elle a pour cardinal la dimension de E. 5 − → ı Christophe Bertault — Mathématiques en MPSI 2.2 COORDONNÉES DANS UNE BASE ORTHONORMALE Théorème (Coordonnées dans une base orthonormale) Soient E 6= 0 E un espace euclidien, (e1 , . . . , en ) une base ORTHONORMALE de E et x ∈ E. n X Alors : x = En d’autres termes, les coordonnées de x dans (e1 , . . . , en ) sont x, e1 , . . . , x, en . x, ek ek . k=1 Explication − → u Vous connaissez bien ce résultat dans le plan et dans l’espace ! Notons (x 1 , . . . ,®x n ) les coordonnées de x dans (e1 , . . . , en ). ¸ n n n X X X x i δki = x k . x i ei , ek = x i ei , ek = Pour tout k ∈ ¹1, nº : x, ek = Démonstration b − → ı − → → u ·− ı i=1 i=1 i=1 − → − → → u ·− Théorème (Expression du produit scalaire et de la norme dans une base orthonormale) Soient E 6= 0 E un espace euclidien et x, y ∈ E de coordonnées respectives X = (x 1 , . . . , x n ) et Y = ( y1 , . . . , yn ) dans une certaine base ORTHONORMALE de E. v n uX n X p t t x, y = x k yk = X Y et kxk = x k2 = t X X . k=1 k=1 n Ce résultat montre que finalement, le produit scalaire Explication canonique sur R est un modèle pour tous les produits scalaires des espaces euclidiens. Calculer le produit scalaire x, y dans un espace euclidien abstrait revient à calculer le produit scalaire canonique des coordonnées des vecteurs x et y dans une base ORTHONORMALE quelconque. $ ATTENTION ! $ Ces formules sont fausses en général pour des coordonnées dans une base NON orthonormale. Notons (e1 , . . . , en ) la base orthonormale considérée. + * n n n X X X X X x i y j δi j = x i y j ei , e j = x k yk = t X Y . yjej = x i ei , Tout simplement : x, y = Démonstration i=1 2.3 1¶i, j¶n 1¶i, j¶n j=1 k=1 ALGORITHME D’ORTHONORMALISATION DE GRAM-SCHMIDT Théorème (Algorithme d’orthonormalisation de Gram-Schmidt) Soient E un espace préhilbertien réel et (e1 , . . . , en ) une famille LIBRE de E. On peut transformer (e1 , . . . , en ) en une famille orthonormale (u1 , . . . , un ) de E telle que : ∀k ∈ ¹1, nº, Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ). Les vecteurs u1 , . . . , un peuvent être construits de proche en proche depuis u1 jusqu’à un , et pour tout k ∈ ¹1, nº, on n’a k−1 X e k , ui ui ek − que deux choix possibles pour uk , uk est soit le vecteur : i=1 , k−1 X e k , ui ui ek − i=1 6 soit son opposé. Christophe Bertault — Mathématiques en MPSI On a tout compris quand on a compris le cas n = 2. On veut transformer une famille libre quelconque u e − e , u e1 2 2 1 1 . (e1 , e2 ) en une famille orthonormale (u1 , u2 ) avec : u1 = et u2 = e − e , u u ke1 k e2 2 2 1 1 u2 • La première formule normalise e1 , c’est-à-dire le rend unitaire. u1 • La seconde commence par transformer e2 en e2 − e2 , u1 u1 , c’est-à-dire à retrancher à e1 e2 sa composante selon u1 , qui vaut e2 , u1 u1 . Le vecteur ainsi obtenu est orthogonal à u1 , mais il peut ne pas être unitaire, c’est pourquoi on le divise par sa norme. e2 , u1 u1 e2 − e2 , u1 u1 Explication b b b Plus généralement, l’algorithme de Gram-Schmidt construit uk en ôtant de ek ses composantes selon u1 , . . . , uk−1 , puis en rendant le tout unitaire. Démonstration • La construction commence simplement. La famille (e1 ) est libre, donc : e1 u1 = . Clairement : Vect(e1 ) = Vect(u1 ). ke1 k e1 6= 0 E . On pose alors : • Soit k ∈ ¹1, nº. Supposons qu’on ait réussi à construire une famille orthonormale (u1 , . . . , uk−1 ) pour laquelle : Vect(e1 , . . . , e p ) = Vect(u1 , . . . , u p ) pour tout p ∈ ¹0, k − 1º. Nous sommes en quête d’un vecteur uk pour lequel (u1 , . . . , uk ) est orthonormale et : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ). • Analyse : Si un tel uk existe, il est combinaison linéaire de e1 , . . . , ek car : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ), mais comme : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ), uk est aussi combinaison linéaire de u1 , . . . , uk−1 , ek , k−1 X aik ui . de sorte que pour certains a1k , . . . , akk ∈ R : uk = akk ek + i=1 Dans ces conditions, pour tout i ∈ ¹1, k − 1º, sachant que uk et ui sont orthogonaux : + * k−1 k−1 X X a jk u j , ui = akk ek , ui + aik , a jk u j , ui = akk ek , ui + 0 = uk , ui = akk ek + j=1 j=1 ou encore : aik = −akk ek , ui . Conclusion : uk = akk u bk avec : u bk = ek − k−1 X e k , ui ui , mais i=1 u bk ±1 akk = . Conclusion : uk = ± . u bk u bk k Le vecteur uk , s’il existe, est finalement déterminé AU SIGNE PRÈS par u1 , . . . , uk−1 et ek . k−1 X e k , ui ui . • Synthèse : Réciproquement, posons : u bk = ek − par ailleurs kuk k = 1, donc : 1 |akk | = , u b i.e. : i=1 Se peut-il que u bk soit nul ? La liberté de (e1 , . . . , en ) s’en trouverait contredite car ek serait combinaison linéaire de u1 , . . . , uk−1 , et donc de e1 , . . . , ek−1 puisque : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ). Nous u bk u bk pouvons ainsi poser : uk = — on pourrait aussi choisir : uk = − . u u b b k k Montrons que la famille (u1 , . . . , uk ) est orthonormale. Comme (u1 , . . . , uk−1 ) l’est par hypothèse de récurrence, et comme uk est unitaire, il nous suffit de montrer que uk est orthogonal à u1 , . . . , uk−1 . Le caractère unitaire de uk est limpide. Or pour tout j ∈ ¹1, k − 1º : uk , u j 1 = u bk , u j = u bk u bk 1 ® ek − k−1 X i=1 e k , ui ui , u j ¸ = 1 ek , u j − ek , u j u j , u j = 0. kb uk k Enfin, dans la mesure où : Vect(e1 , . . . , ek−1 ) = Vect(u1 , . . . , uk−1 ), et puisque uk est combinaison linéaire de u1 , . . . , uk−1 et ek , alors comme voulu : Vect(e1 , . . . , ek ) = Vect(u1 , . . . , uk ). Exemple p p La famille 1 , 3(2X −1) , 5 6X 2 −6X +1 est orthonormale pour le produit scalaire (P, Q) 7−→ sur R[X ]. Z 1 P(t)Q(t) dt 0 En effet Nous allons, grâce à l’algorithme de Gram-Schmidt, construire une famille orthonormale (P0 , P1 , P2 ) à partir de la famille LIBRE 1, X , X 2 . Z1 1 2 • Construction de P0 : Posons : P0 = . Comme : k1k = dt = 1, en fait : P0 = 1. k1k 0 7 Christophe Bertault — Mathématiques en MPSI Z1 X − X , P0 P0 1 . Comme : • Construction de P1 : Posons : P1 = X , P0 = t dt = , le X − X , P P 2 0 0 0 2 Z 1 2 1 1 1 1 dt = , donc : polynôme au numérateur vaut : X − , mais : t− X − 2 = 2 2 12 0 p P1 = 3(2X − 1). La famille (P0 , P1 ) est orthonormale. Z1 2 X 2 − X 2 , P0 P0 − X 2 , P1 P1 1 . Comme : X , P0 = t 2 dt = • Construction de P2 : Posons : P2 = X 2 − X 2 , P P − X 2 , P P 3 0 1 1 0 0 Z1 2 p 1 1 et X , P1 = t 2 × 3(2t − 1) dt = p , le polynôme au numérateur vaut : X 2 − X + , 6 2 3 0 2 Z 1 2 p 1 1 1 2 dt = , donc : P2 = 5 6X 2 − 6X + 1 . La mais : t2 − t + X − X + 6 = 6 180 0 famille (P0 , P1 , P2 ) est orthonormale. Essentiel en pratique, l’algorithme d’orthonormalisation de Gram-Schmidt a aussi des conséquences théoriques. Théorème (Existence de bases orthonormales en dimension finie) Soit E 6= 0 E un espace euclidien. Alors E possède une base orthonormale. Démonstration De dimension finie non nulle, E possède une base, donc une base orthonormale grâce à l’algorithme de Gram-Schmidt. Théorème (Théorème de la base orthonormale incomplète en dimension finie) Soit E 6= 0 E un espace euclidien. Toute famille orthonormale de E peut être complétée en une base orthonormale de E. Démonstration Soit (e1 , . . . , e p ) une famille orthonormale — donc libre — de E. On peut la compléter en une base de E car E est de dimension finie non nulle, puis orthonormaliser cette base grâce à l’algorithme de GramSchmidt. L’algorithme n’affecte pas les premiers vecteurs e1 , . . . , e p qui forment déjà une famille orthonormale, donc au fond nous avons complété notre famille de départ en une base orthonormale de E. 2.4 SUPPLÉMENTAIRE ORTHOGONAL D’UN SOUS -ESPACE VECTORIEL Définition-théorème (Orthogonal d’une partie) Soient E un espace préhilbertien réel et X une partie de E. On appelle ¦ © ⊥ orthogonal de X dans E l’ensemble : X = t ∈ E/ ∀x ∈ X , t, x = 0 . ⊥ X est un sous-espace vectoriel de E orthogonal à X . Par ailleurs : X ∩ X ⊥ ⊂ 0 E et X ⊂ X ⊥⊥ . Si F un sous-espace vectoriel de E, ce théorème montre en particulier que F et F ⊥ sont en somme $ ATTENTION ! $ directe. Il n’est pas vrai en général, en revanche, que F et F ⊥ sont supplémentaires dans E, ils sont seulement en somme directe. De même, il n’est pas vrai en général que : F ⊥⊥ = F . Nous verrons tout de même que ces résultats sont vrais si F est de dimension finie, donc en particulier si E est euclidien. Démonstration • Montrons que X ⊥ est un sous-espace vectoriel de E. D’abord : 0 E ∈ X ⊥ car pour tout x ∈ X : 0 , x = 0. Ensuite, soient t, t ′ ∈ X ⊥ et λ, λ′ ∈ R. E Pour tout x ∈ X : λt + λ′ t ′ , x = λ x, t + λ′ t ′ , x = λ.0 + λ′ .0 = 0, donc : λt + λ′ t ′ ∈ X ⊥ . x, x = 0, donc : • Montrons que : X ∩ X ⊥ ⊂ 0 E . Or pour tout x ∈ X ∩ X ⊥ : x ⊥ x donc : x = 0 E par séparation. • L’inclusion : X ⊂ X ⊥⊥ signifie juste que tout vecteur de X est orthogonal à tout vecteur de X ⊥ — ce qui est évident par définition de X ⊥ . 8 Christophe Bertault — Mathématiques en MPSI Exemple Pour tout espace préhilbertien réel E : 0E ⊥ =E et E ⊥ = 0E . Pour la seconde égalité, rappelons que 0 E EST LE SEUL VECTEUR DE E ORTHOGONAL À TOUT VECTEUR — et pourquoi ? Pour vérifier que deux sous-espaces vectoriels de dimensions finies F et G, engendrés respectivement En pratique par des parties X et Y , sont orthogonaux, il suffit de montrer que ces parties X et Y sont elles-mêmes orthogonales. Exemple Pour le produit scalaire (P, Q) 7−→ P(−1)Q(−1) + P(0)Q(0) + P(1)Q(1) sur R2 [X ] : R1 [X ]⊥ = Vect 3X 2 − 2 . R1 [X ]=Vect(1,X ) En effet Pour tout P = aX 2 + bX + c ∈ R2 [X ] : P ∈ R1 [X ]⊥ ⇐⇒ P, 1 = 0 et P, X = 0 § (a − b + c) × 1 + c × 1 + (a + b + c) × 1 = 0 ⇐⇒ ⇐⇒ 2a + 3c = 0 et 2b = 0. (a − b + c) × (−1) + c × 0 + (a + b + c) × 1 = 0 Définition-théorème (Supplémentaire orthogonal d’un sous-espace vectoriel de dimension finie) Soient E un espace préhilbertien réel et F un sous-espace vectoriel DE DIMENSION FINIE de E. (i) F ⊥ est un supplémentaire de F dans E orthogonal à F et c’est même le seul. On l’appelle par conséquent LE supplémentaire orthogonal de F dans E. (ii) F ⊥⊥ = F . $ ATTENTION ! $ • Il est ici essentiel que F soit DE DIMENSION FINIE . • Il existe UN unique supplémentaire orthogonal mais tout plein de supplémentaires « généraux », ne l’oubliez pas. Démonstration (i) Nous savons déjà que : F ∩ F ⊥ = 0E . • Montrons que : E = F + F ⊥ , i.e. que : E ⊂ F + F ⊥ . Nous pouvons supposer : F 6= 0 E ⊥ car : 0E = E, et comme F est de dimension finie, nous donner une base orthonormale ( f1 , . . . , f n ) de F . Soit x ∈ E. Pour tout i ∈ ¹1, nº : ® ¸ n n n X X X x− x, f k f k , f i = x, f i − x, f k f k , f i = x, f i − x, f k δki = x, f i − x, f i = 0, k=1 donc x − n X k=1 k=1 x, f k f k est orthogonal à f1 , . . . , f n , donc élément de F ⊥ . Comme voulu : k=1 x ∈ F + F ⊥. • Montrons que F ⊥ est le seul supplémentaire de F dans E orthogonal à F . Soit F ′ un tel supplémentaire. Aussitôt : F ′ ⊂ F ⊥ car : F ⊥ F ′ . Inversement, soit x ∈ F ⊥ . Comme : E = F + F ′ , alors : x = f + f ′ pour certains f ∈ F et f ′ ∈ F ′ , donc : f , f = f + f ′ , f = x, f = 0, ′ ′ puis : f = 0 E , et enfin : x = f ∈ F . ⊥⊥ ′ (ii) Nous savons déjà que : F ⊂ F ⊥⊥ . Inversement, ′soit′ x ∈ F , disons : x =′ f + f ′ ⊥ ⊥⊥ ′ ′ f ∈ F et f ∈ F . Or : x ∈ F , donc : f , f = f + f , f = x, f = 0. f ′ = 0 E , i.e. : x = f ∈ F . 2.5 VECTEURS pour certains Conclusion : NORMAUX À UN HYPERPLAN ET ORIENTATION Définition-théorème (Vecteurs normaux à un hyperplan) Soient E 6= 0 E un espace euclidien de dimension n et H un hyperplan de E. Le sous-espace vectoriel H ⊥ est une droite dont tout vecteur non nul est appelé un vecteur normal à H. Par extension, pour tout hyperplan affine H de E de direction H, les vecteurs normaux à H sont aussi qualifiés de vecteurs normaux à H . Démonstration Comme E est de dimension finie : hyperplan : dim H ⊥ = dim E − dim H = 1. 9 E = H ⊕ H⊥, et par conséquent, comme H est un Christophe Bertault — Mathématiques en MPSI Explication H⊥ Rappelons qu’un hyperplan H est par définition le noyau d’une forme linéaire non nulle, autrement dit un ensemble décrit par une unique équation linéaire scalaire non nulle. Comment les notions de forme linéaire et de vecteur normal sont-elles alors liées ? Tout simplement, puisque : ¦ © H = Vect(a)⊥ = x ∈ E/ x, a = 0 , a H 0E b H est le noyau de la forme linéaire non nulle x 7−→ x, a . En outre, si nous nous donnons une base orthornormale (e1 , . . . , en ) de E et si a a pour coordonnées (a1 , . . . , an ) dans cette base, l’équation : x, a = 0 qui peut servir à définir H s’écrit aussi : a1 x 1 + . . . + an x n = 0 sous forme analytique. Nous retrouvons là l’équation typique d’un hyperplan et le fait que les coefficients a1 , . . . , an d’une telle équation définissent naturellement un vecteur normal. Exemple • Dans l’espace euclidien canonique R2 , l’hyperplan AFFINE H d’équation : 3x + 2 y = 1 admet pour direction l’hyperplan VECTORIEL H d’équation : 3x + 2 y = 0, équation qu’on peut réécrire comme un produit scalaire : (x, y)·(3, 2) = 0. A fortiori, H est l’ensemble des vecteurs de R2 orthogonaux à (3, 2) : H = (3, 2)⊥ . On qualifie le vecteur (3, 2) de vecteur normal à H (ou à H ). • De même, dans l’espace euclidien canonique R3 , l’hyperplan AFFINE H d’équation : x − y + 2z = 3 admet pour direction l’hyperplan VECTORIEL H d’équation : x − y + 2z = 0, équation qu’on peut réécrire comme un produit scalaire : (x, y, z) · (1, −1, 2) = 0. A fortiori, H est l’ensemble des vecteurs de R3 orthogonaux à (1, −1, 2) : H = (1, −1, 2)⊥ . On qualifie le vecteur (1, −1, 2) de vecteur normal à H (ou à H ). Définition-théorème (Orientation d’un hyperplan par un vecteur normal) Soient E 6= 0 E un espace euclidien ORIENTÉ de dimension n et H un hyperplan de E. L’espace vectoriel E a beau être orienté, son sous-espace vectoriel H ne l’est pas a priori. Le choix supplémentaire d’un vecteur normal a à H donne en revanche à H une orientation de la manière suivante : Une base (h1 , . . . , hn−1 ) de H est tenue pour directe si et seulement si la base (h1 , . . . , hn−1 , a) de E l’est. Démonstration On a défini au chapitre « Déterminants » une relation « avoir la même orientation » sur l’ensemble des bases d’un R-espace vectoriel quelconque de dimension finie. L’orientation de cet espace consistait alors en le choix arbitraire de l’une des deux classes d’équivalence de cette relation, considérée comme la classe des bases directes. Notre orientation de H à partir de l’orientation de E et d’un vecteur normal a à H respecte-t-elle cette définition ? Donnons-nous deux bases B = (h1 , . . . , hn−1 ) et B ′ = (h′1 , . . . , h′n−1 ) de H. Les familles Ba = (h1 , . . . , hn−1 , a) MatB (B ′ ) 0 ′ ′ ′ ′ et Ba = (h1 , . . . , hn−1 , a) sont alors deux bases de E et : MatBa (Ba ) = . En particulier : 0 1 detBa (Ba′ ) = detB (B ′ ), donc ces deux déterminants ont le même signe. En termes d’orientation, cela signifie que B ′ a la même orientation que B si et seulement si Ba′ a la même orientation que Ba . Via le choix d’un vecteur normal a, cette équivalence justifie l’idée que l’orientation de E se transmet à H. Explication H⊥ Les hyperplans d’un R-espace vectoriel orienté ne sont pas naturellement orientés quant à eux, car par exemple en dimension 3, on ne perçoit pas l’orientation d’un plan de la même manière selon le demi-espace depuis lequel on observe ce plan. Se donner un vecteur normal d’un hyperplan, cela revient justement à choisir un demi-espace parmi les deux que l’hyperplan délimite, donc à choisir un point de vue à partir duquel on peut envisager une orientation de l’hyperplan. H⊥ a H 0E b H Les deux orientations possibles d’un hyperplan par la donnée d’un vecteur normal 10 0E a b Christophe Bertault — Mathématiques en MPSI 3 PROJECTION ORTHOGONALE SUR UN SOUS-ESPACE VECTORIEL DE DIMENSION FINIE 3.1 PROJECTIONS ET SYMÉTRIES ORTHOGONALES Définition (Projection orthogonale, symétrie orthogonale, réflexion) Soient E un espace préhilbertien réel et F un sous-espace vectoriel DE DIMENSION FINIE de E. • On appelle projection orthogonale sur F ou projecteur orthogonal sur F la projection sur F de direction F ⊥ . • On appelle symétrie orthogonale par rapport à F la symétrie par rapport à F parallèlement à F ⊥ . On parle plutôt de réflexion par rapport à F lorsque F est un hyperplan de E. Explication F⊥ E = F ⊕ F ⊥. Comme F est de dimension finie : f ′ x = f + f′ F⊥ f ′ x = f + f′ F 0E b f F 0E Symétrie orthogonale b f = p(x) −f ′ Projection orthogonale s(x) Théorème (Expression d’une projection orthogonale dans une base orthonormale) Soient E un espace préhilbertien réel, F un sous-espace vectoriel DE DIMENSION FINIE non nulle de E et ( f1 , . . . , f n ) une base orthonormale de F . n X x, f k f k . Si on note p la projection orthogonale sur F , alors pour tout x ∈ E : p(x) = k=1 Explication Dans ce résultat, « x, f k f k » représente la composante de x selon le vecteur f k . Démonstration Ainsi : x= n X k=1 | Soit x ∈ E. Le vecteur x − x, f k f k + x − {z ∈F } | n X k=1 n X k=1 x, f k f k , {z x, f k f k est orthogonal à f1 , . . . , f n , donc est élément de F ⊥ . } et donc : p(x) = n X x, f k f k . k=1 ∈F ⊥ On peut calculer essentiellement de deux manières un projeté orthogonal. Donnons-nous E un es En pratique pace préhilbertien réel, F un sous-espace vectoriel de dimension finie non nulle de E, ( f1 , . . . , f n ) une base PAS FORCÉMENT ORTHONORMALE de F et x ∈ E. Comment calculer le projeté orthogonal p(x) de x sur F ? Si la base ( f1 , . . . , f n ) est orthonormale, on peut bien sûr utiliser le théorème précédent, mais sinon ? • Première stratégie : On orthonormalise ( f1 , . . . , f n ) grâce à l’algorithme de Gram-Schmidt et du coup on peut utiliser le théorème précédent. n X λi f i , puis • Deuxième stratégie : On introduit les coordonnées (λ1 , . . . , λn ) de p(x) dans ( f1 , . . . , f n ) : p(x) = i=1 on les calcule grâce aux relations : x − p(x), f j = 0 pour tout j ∈ ¹1, nº. Ces relations expriment l’appartenance ⊥ de x − p(x) à F et fournissent un système de n équations à n inconnues que l’on n’a plus qu’à résoudre. 11 Christophe Bertault — Mathématiques en MPSI Exemple On note F le sous-espace vectoriel Vect(sin, cos) de C [0, 2π], R . Le projeté orthogonal de l’identité Id sur F Z 2π pour le produit scalaire ( f , g) 7−→ 0 f (t)g(t) dt est la fonction t 7−→ −2 sin t. En effet Nous aurons besoin d’un certain nombre de produits scalaires, calculons-les de prime abord pour que l’essentiel des stratégies adoptées soit bien lisible ensuite. Z 2π 2 k sin k = sin t dt = 0 En outre : Z 2π Enfin : 0 Z 1 − cos(2t) t sin(2t) t=2π = π, dt = − 2 2 4 t=0 2π sin2 t 2 k cos k2 = π. et de même : t=2π = 0, donc la famille (sin, cos) est orthogonale. sin t cos t dt = t=0 Z 2π t=2π t=2π − teit dt = t × (−i)eit (−i)eit dt = −2iπ + i (−i)eit t=0 = −2iπ + 0 = −2iπ, donc : sin, cos = 0 t=0 0 Z 2π 2 Z Id, sin = 0 Z 2π t sin t dt = Im 0 2π 0 teit dt = Im(−2iπ) = −2π et de même : Id, cos = 0. • Première stratégie : On commence par orthonormaliser la famille LIBRE (sin, cos) de F grâce à l’algorithme de Gram-Schmidt. Cettefamille étant déjà orthogonale, on n’a par chance qu’à la normaliser, et sin cos cos sin = p ,p , est une base orthonormale de F . Le projeté orthogonal en l’occurrence k sin k k cos k π π de Id sur F est finalement la fonction : ­ ­ · · Id, sin Id, cos cos cos sin sin Id, p sin + cos = −2 sin . p + Id, p p = π π π π π π • Deuxième stratégie : Notons p(Id) le projeté orthogonal de Id sur F et (λ, µ) ses coordonnées dans la base (sin, cos) de F : p(Id) = λ sin +µ cos. Appuyons-nous sur le fait que : Id − p(Id) ∈ F ⊥ . 0 = Id − p(Id), sin = Id − λ sin −µ cos, sin = Id, sin − λk sin k2 − µ cos, sin = −2π − λπ et 0 = Id − p(Id), cos = Id − λ sin −µ cos, cos = Id, cos − λ sin, cos − µk cos k2 = −µπ. Conclusion : Exemple λ = −2 et µ = 0, donc : p(Id) = −2 sin. H⊥ Soient E 6= 0 E un espace euclidien et H un hyperplan de E de vecteur normal a. On note p la projection orthogonale sur H. Alors pour tout x, a a x ∈ E : p(x) = x − . Si de plus a est unitaire, cette expression 2 kak devient : p(x) = x − x, a a. Tout simplement, PROJETER x SUR H REVIENT ⊥ À LUI ÔTER SA COMPOSANTE SELON H . H 0E En effet Notons p′ la projection orthogonale sur Vect(a) = H ⊥ . ­ · x, a a a a a est une base orthonormale de Vect(a) : p′ (x) = x, = Comme kak kak kak kak2 d’où l’expression de p puisque : p + p′ = Id E . 3.2 DISTANCE x ­ a kak x, a kak · b b p(x) pour tout x ∈ E, À UN SOUS -ESPACE VECTORIEL DE DIMENSION FINIE Définition-théorème (Distance à une partie) Soient E un espace préhilbertien réel, A une partie non vide de E et x ∈ E. On appelle distance de x à A , notée d(x, A ), le réel : d(x, A ) = inf d(x, a). a∈A Intuitivement, la distance d’un vecteur x à une partie A est la plus petite distance séparant x d’un Explication élément de A . Mais comment savoir si une telle « plus petite distance » existe ? En fait, elle n’existe pas nécessairement et c’est pourquoi on n’a surtout pas posé : d(x, A ) = min d(x, a), on a utilisé une borne inférieure. a∈A 12 a kak Christophe Bertault — Mathématiques en MPSI b La distance de x à A est ici un minimum (i.e. elle est atteinte). x x b d(x, A ) d(x, A ) A La distance de x à A est ici seulement une borne inférieure. A Démonstration Le réel d(x, A ) est bien défini d’après la propriété de la borne inférieure, car l’ensemble d(x, a) a∈A est une partie de R non vide : car A 6= ∅, et minorée par 0. Théorème (Distance à un sous-espace vectoriel de dimension finie) Soient E un espace préhilbertien réel, F un sous-espace vectoriel DE DIMENSION FINIE de E et x ∈ E. On note p la projection orthogonale sur F . • Tout d’abord : d(x, F ) = x − p(x) = d x, p(x) . La distance de x à F est donc un minimum. Ce minimum n’est atteint qu’en le projeté orthogonal de x sur F . 2 • Par ailleurs : d(x, F )2 = kxk2 − p(x) . Démonstration ∈Ker p = F ⊥ F⊥ x x − p(x) d(x, F ) = x − p(x) F 0E b p(x) ∈Im p = F }| { z }| { • Pour tout f ∈ F : x − f = x − p(x) + p(x) − f , donc aussitôt d’après le théorème de Pythagore : 2 2 kx − f k2 = x − p(x) + p(x) − f . • Montrons à présent l’égalité : d(x, F ) = x − p(x) = d x, p(x) . Posons : D = d(x, f ) f ∈F . — Pour commencer : x − p(x) = d x, p(x) ∈ D car p(x) ∈ F . Ç x − p(x)2 + p(x) − f 2 ¾ x − p(x), donc — Ensuite, pour tout f ∈ F : d(x, f ) = kx − f k = x − p(x) minore D. Conclusion : d x, p(x) = min D, donc a fortiori : d x, p(x) = inf D = d(x, F ). • Enfin, pour tout f ∈ F \ p(x) : p(x) − f > 0, donc : r 2 2 d(x, f ) = x − p(x) + p(x) − f > x − p(x). z Comme voulu, la distance d(x, F ) n’est atteinte qu’en p(x). Théorème (Distance à un hyperplan affine) Soient E un espace euclidien, H un hyperplan affine passant par A et de −→ vecteur normal UNITAIRE a. Pour tout M ∈ E : d(M , H ) = AM · a. Démonstration Notons H la direction de H et p la projection orthogonale sur H. Nous avons vu dansun exemple précédent que pour tout x ∈ E : p(x) = x − x, a a. Du coup : −→ d(M , H ) = d(M , A + H) = inf d(M , A + h) = inf d AM , h h∈H h∈H −→ −→ ¬−→ ¶ −→ = d AM , H = AM − p AM = AM , a a, −→ donc comme voulu : d(M , H ) = AM , a . Exemple M a H A b −→ AM · a b H Dans l’espace euclidien canonique R3 , le point (4, 3, 2) est à distance 4 du plan d’équation : 3 Le plan P d’équation : 2x + y + 2z = 3. 2x + y + 2z = 3 est un hyperplan affine de R passant par A = (1, 1, 0) (2, 1, 2) −→ et de vecteur normal unitaire a = . Comme voulu, si on pose M = (4, 3, 2) : AM = (3, 2, 2), donc : 3 −→ d(M , P ) = AM · a = 4. En effet 13 Christophe Bertault — Mathématiques en MPSI Exemple y • Il est courant qu’on ait à expliquer — en physique, en économie ou dans n’importe quelle discipline expérimentale — une certaine quantité y par une autre quantité x. En vue de cette explication, supposons qu’on ait fait n mesures expérimentales (x 1 , y1 ), . . . , (x n , yn ) du couple (x, y). Le monde étant bien fait, il arrive souvent que la variable y, dite expliquée, soit une fonction affine de la variable x, dite explicative. Le nuage des couples (x 1 , y1 ), . . . , (x n , yn ) est alors assez proche d’une droite. b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b x Cela dit, comment déduit-on proprement d’un nuage de points l’équation d’une droite de meilleure approximation comme celle que nous avons représentée ci-dessus ? Nous cherchons deux réels m et p pour lesquels la droite d’équation : y = mx + p est la plus proche possible du nuage de points. Ce problème est appelé un problème de régression linéaire simple — linéaire en raison de la forme : y = mx + p cherchée, simple parce que y est supposée ne dépendre que d’une seule variable explicative x. • Pour tout i ∈ ¹1, nº, notre mesure de y pour x = x i nous a fourni la valeur yi , mais la valeur « sans erreur » que nous aurions dû trouver est mx i + p. L’écart entre les deux vaut yi − mx i − p, mais ce n’est pas cet écart ponctuel qui nous intéresse, nous nous intéressons plutôt à un écart global entre le nuage de points et la droite d’équation : y = mx + p. Or comment définir cet écart ? Plusieurs définitions sont possibles, par exemple : max yi − mx i − p, 1¶i¶n v uX n n X y −mx −p, ou : t ( y − mx − p)2 . Nous travaillerons désormais dans le cadre de cette troisième ou : i i i i i=1 i=1 possibilité. La méthode de régression linéaire correspondante est appelée la méthode v des moindres carrés. uX n t • Nous cherchons donc des réels m et p — s’il en existe — pour lesquels la quantité ( yi − mx i − p)2 est minimale, i=1 n et c’est précisément maintenant que les produits scalaires en scène. Dans l’espace euclidien canonique R , entrent 1 1 et F = Vect(X , U). ,..., posons : X = (x 1 , . . . , x n ), Y = ( y1 , . . . , yn ), U = n n v uX n t ( yi − mx i − p)2 = inf Y − mX − npU = inf d(Y, mX + npU) = inf d(Y, Z) = d(Y, F ). inf m,p∈R m,p∈R i=1 m,p∈R Z∈F Or d’après le théorème précédent, si nous notons p la projection orthogonale de Rn sur F , la distance d(Y, F ) est atteinte en un et un seul point, à savoir : p(Y ) = mX + npU où m et p sont les deux réels que nous cherchons. • Par définition de p(Y ) : Y − p(Y ) ∈ F ⊥ , donc : X , Y − p(Y ) = 0 et U, Y − p(Y ) = 0, ce qu’on peut aussi 1 écrire ainsi, sachant que kUk2 = : mkX k2 + np X , U = X , Y et m X , U + p = Y, U — deux équations, n X , Y − n X , U Y, U et p = Y, U − m X , U . Posons alors : deux inconnues. En particulier : m = 2 kX k2 − n X , U 1X xi E(x) = X , U = n i=1 1X E( y) = Y, U = yi n i=1 n (moyenne empirique des x i ), n (moyenne empirique des yi ), n X 2 1 X − nE(x)U 2 = 1 x i − E(x) (variance empirique des x i ) n n i=1 n 1X 1 x i − E(x) yi − E( y) (covariance empirique des x i et des yi ). X − nE(x)U, Y − nE( y)U = cov(x, y) = n n i=1 V(x) = et Il n’est alors pas dur de vérifier que : Conclusion : m= cov(x, y) V(x) et 2 nV(x) = kX k2 − n X , U et n cov(x, y) = X , Y − n X , U Y, U . p = E( y) − mE(x). y b b b b • Le problème de ce qui précède, c’est que toute variable expliquée y ne dépend pas de manière affine de sa variable explicative x. La méthode des moindres carrés est-elle caduque au-delà ? Heureusement non, et nous allons nous en convaincre sur un exemple. Sur la figure ci-contre, on peut émettre l’hypothèse d’une relation de la forme : y = λx α entre x et y où λ et α sont deux réels à déterminer. On peut se ramener ici au cas affine en réécrivant les choses ainsi : ln y = α ln x + ln λ. Dans ce cas simple, ce sont les réels α et ln λ qu’on calculera par régression linéaire simple. b b b bb b b b b b b b b b b b b b b b b x 14