Eléments de Calcul Matriciel et Différentiel pour l’Analyse Factorielle de Données. Jean-François Durand [email protected] Université Montpellier II Contents 1 Matrices, Définitions et Propriétés 7 1.1 Notations et premières définitions . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Matrice associée à une application linéaire . . . . . . . . . . . . . . . . . . 9 1.3 Quelques matrices particulières . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.1 Matrice adjointe d’une matrice A . . . . . . . . . . . . . . . . . . . 9 1.3.2 Matrices hermitiennes . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 Image, noyau, rang d’une matrice . . . . . . . . . . . . . . . . . . . . . . . 10 1.4.1 Image d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.2 Noyau d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.3 Rang d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.5 Déterminant d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . 12 1.6 Inverse d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.7 Changements de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.7.1 Effet sur les coordonnées d’un vecteur . . . . . . . . . . . . . . . . . 15 1.7.2 Effet sur les éléments d’une matrice . . . . . . . . . . . . . . . . . . 15 1.8 Valeurs propres, vecteurs propres . . . . . . . . . . . . . . . . . . . . . . . 15 1.9 Trace d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.10 Formes linéaires, formes quadratiques . . . . . . . . . . . . . . . . . . . . . 18 1.11 Matrices orthogonales et unitaires . . . . . . . . . . . . . . . . . . . . . . . 20 1.11.1 Les matrices de permutation . . . . . . . . . . . . . . . . . . . . . . 20 1.11.2 Les matrices de rotation . . . . . . . . . . . . . . . . . . . . . . . . 21 1.11.3 Construction d’une base orthonormée par le procédé de Gram-Schmidt 22 1.12 Opérateur vec et produit de Kronecker . . . . . . . . . . . . . . . . . . . . 22 1.12.1 L’opérateur vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.12.2 Produit de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.12.3 Matrice de commutation . . . . . . . . . . . . . . . . . . . . . . . . 25 3 1.13 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2 Décomposition de Matrices 2.1 31 Les projecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.1 Sous espaces supplémentaires et projecteurs . . . . . . . . . . . . . 32 2.1.2 Exemple fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.3 D’autres matrices orthogonales : les matrices de réflexion . . . . . . 34 2.2 Matrices carrées diagonalisables . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3 Factorisation QR d’une matrice rectangulaire 2.4 Décomposition unitaire des matrices carrées . . . . . . . . . . . . . . . . . 38 2.5 . . . . . . . . . . . . . . . . 37 2.4.1 Le théorème de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.4.2 Matrices normales . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Décomposition en valeurs singulières . . . . . . . . . . . . . . . . . . . . . 41 2.5.1 Deux versions de la DVS . . . . . . . . . . . . . . . . . . . . . . . . 41 2.5.2 Décomposition polaire . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.6 Factorisation de Cholesky d’une matrice symétrique définie positive . . . . 46 2.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3 Normes de Matrices 3.1 3.2 51 Normes de vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.1.1 Normes de Hölder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.1.2 Généralisation de la norme Euclidienne, la M -norme . . . . . . . . 54 Normes de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2.1 Normes subordonnées à des normes vectorielles . . . . . . . . . . . 56 3.2.2 Normes Euclidiennes par vectorisation . . . . . . . . . . . . . . . . 58 3.2.3 Normes matricielles sous multiplicatives . . . . . . . . . . . . . . . 60 3.2.4 Normes unitairement invariantes . . . . . . . . . . . . . . . . . . . . 61 3.3 Suites de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.4 Conditionnement d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . 63 3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4 Inverses Généralisés, Projecteurs M -Orthogonaux 4.1 4.2 67 Inverses Généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.1.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.1.2 Inverse de Moore-Penrose . . . . . . . . . . . . . . . . . . . . . . . 70 Projecteurs M -orthogonaux . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.3 4.2.1 Projecteur M -orthogonal sur Im A . . . . . . . . . . . . . . . . . . 72 4.2.2 Un problème aux moindres carrés . . . . . . . . . . . . . . . . . . . 74 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5 Dérivation Matricielle 77 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2 Dérivation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.3 5.4 5.2.1 Matrices Jacobiennes . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2.2 Hessien de fonctions numériques . . . . . . . . . . . . . . . . . . . . 81 Extremums de fonctions numériques . . . . . . . . . . . . . . . . . . . . . . 82 5.3.1 Problèmes d’extremums libres . . . . . . . . . . . . . . . . . . . . . 84 5.3.2 Problèmes d’extremums liés . . . . . . . . . . . . . . . . . . . . . . 85 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 6 Le paysage mathématique et statistique de l’Analyse Factorielle de Données : la géométrie Euclidienne 89 6.1 Le triplet (T, M, D) des données . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2 Statistique et géométrie sur (IRn , D), espace des variables . . . . . . . . . . 91 6.3 6.2.1 Le simplexe des poids statistiques et la droite des constantes . . . . 91 6.2.2 Moyenne et centrage vus comme une projection . . . . . . . . . . . 92 6.2.3 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . 93 6.2.4 Proximité entre deux variables, covariance et corrélation linéaire . . 94 6.2.5 Définitions et notations pour la statistique multivariée . . . . . . . 96 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7 Généralisation de la Décomposition en Valeurs Singulières. Analyse en Composantes Principales du triplet (X, M, D) 7.1 7.2 101 Décomposition en Valeurs Singulières du triplet . . . . . . . . . . . . . . . 102 7.1.1 Lemme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 7.1.2 La DVS du triplet (X, M, D) . . . . . . . . . . . . . . . . . . . . . 103 7.1.3 Relation avec la DVS usuelle . . . . . . . . . . . . . . . . . . . . . . 104 7.1.4 Projecteurs orthogonaux associés à la DVS . . . . . . . . . . . . . . 105 7.1.5 Théorème d’approximation d’Eckart-Young . . . . . . . . . . . . . . 105 Analyse en Composantes Principales d’ordre k du triplet (X, M, D) . . . . 106 7.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 7.2.2 Projections des points lignes . . . . . . . . . . . . . . . . . . . . . . 113 7.2.3 Projections des vecteurs colonnes . . . . . . . . . . . . . . . . . . . 117 7.2.4 Eléments supplémentaires . . . . . . . . . . . . . . . . . . . . . . . 120 7.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.4 Formulaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 7.4.1 ACP usuelle d’ordre k du triplet (X, M = Ip , D = n−1 In ) . . . . . . 131 7.4.2 DVS du triplet (X, M, D) . . . . . . . . . . . . . . . . . . . . . . . 131 Chapter 1 Matrices, Définitions et Propriétés Ce chapitre n’est pas un cours de calcul matriciel mais a pour ojectif d’une part de rappeler de façon succinte les principales définitions et propriétés étudiées au cours du premier cycle et d’autre part, d’en introduire de nouvelles utilisées en statistique et en calcul différentiel matriciel. On supposera que les notions de IK-espace vectoriel (IK est IR ou C) I et d’applications linéaires sont connues. De façon commode en dimension finie, lorsqu’une base de l’espace vectoriel est spécifiée, l’expression d’un vecteur dans la base est assimilée à une matrice colonne. La base choisie par défaut est la base canonique. 1.1 Notations et premières définitions Une matrice m × n, A, est un tableau d’éléments de IK, tel que a11 . . . a1n . .. . A = [aij ] = . . . am1 . . . amn L’élément courant aij , ième ligne, jième colonne, sera parfois noté aji . La somme de deux matrices de même dimensions est définie par A + B = [aij ] + [bij ] = [aij + bij ]. Le produit d’une matrice par un scalaire λ ∈ IK, est défini par λA = Aλ = [λaij ] . Ces deux opérations confèrent à l’ensemble Mmn (IK) des matrices de m lignes et n colonnes sur IK, une structure d’espace vectoriel de dimension mn qui sera aussi noté 7 IK m×n . On note {Eij (m, n)}i,j la base canonique de IK m×n , définie par 0. . . . . . 0. .. .. Eij (m, n) = Eij = 0. · · · 0 1 0 · · · 0. , .. .. 0 . . . . . 0 matrice dont le seul élément non nul est l’élément ij qui vaut 1. n m X X ai j Eij (m, n). A= i=1 j=1 Outre les opérations liées à la structure d’espace vectoriel, il existe une autre opération appelée produit matriciel. Soient A = [aij ], m × n, et B = [bij ], n × p, alors le produit AB est la matrice m × p définie par " C = AB = cij = Soit A = [aij ], une matrice m × n. La matrice identité d’ordre m, Im = m X n X # aik bkj . k=1 Eii (m, m). Alors, A = Im A = AIn . i=1 La matrice A0 , transposée de A, est la matrice n × m, A0 = [a0ij = aji ]. La base canonique pour Mm1 (IK) = IK m×1 identifié à IK m , est notée {ei (m) = Ei1 (m, 1)}i=1,...,m , ou {ei }i lorsqu’il n’y aura pas d’ambiguté sur la dimension. On a les propriétés : ∗ Eij (m, n) = ei (m)e0j (n). ∗ Assimilant IR et IR1×1 , le symbole de Kronecker, δij = e0i (n)ej (n) = ∗ Eij er = colonne r de Eij = δjr ei e0r Eij = ligne r de Eij = δir e0j . ∗ Soient Ai la ligne i et Aj la colonne j de A. aij = e0i (m)Aej (n). m X j A = Aej (n) = aij ei (m) et Ai = e0i (m)A = et A= i=1 n X j=1 aij e0j (n) n X Aj ej (n)0 . j=1 A= m X i=1 ei (m)Ai . ( 1 si i = j 0 si i 6= j 1.2 Matrice associée à une application linéaire Rappelons la définition d’une application linéaire g du IK-espace vectoriel E dans le IKespace vectoriel F ∀(λ, µ) ∈ IK 2 , (x, y) ∈ E 2 . g(λx + µy) = λg(x) + µg(y), Soient E et F deux IK-espaces vectoriels de dimensions finies (E = IK n et F = IK m ), {e1 , . . . , en } une base de E et {f1 , . . . , fm } une base de F . Soit enfin g une application linéaire de E dans F (on dira g ∈ L(E, F )), telle que x −→ y = g(x). On appelle matrice de g relativement aux deux bases, la matrice A = [aij ] de dimen- sions m × n définie par colonnes g(e1 ) . . . A=[A 1 ... g(en ) An ] La jième colonne Aj contient les coordonnées de g(ej ) exprimées dans la base P {f1 , . . . , fm }. Plus précisément, g(ej ) = m i=1 aij fi . Alors, la matrice colonne Y = [yi ] des coordonnées de y dans la base {fi }, s’exprime en fonction de la matrice colonne X = [xj ] des coordonnées de x dans la base {ej }, P grâce au produit matriciel Y = AX où yi = m j=1 aij xj . En outre, soit A une matrice de Mmn (IK). Alors A est la matrice d’une unique application linéaire gA de IK n dans IK m relativement aux bases canoniques de ces espaces. On dit que gA est l’application linéaire canoniquement associée à A. 1.3 1.3.1 Quelques matrices particulières Matrice adjointe d’une matrice A Dans ce cours, les nombres et matrices complexes sont seulement liés aux valeurs propres et vecteurs propres de matrices carrées réelles non-symétriques. Aussi, un traitement détaillé des éléments de C I m×n est omis. Soit A = [aij ] ∈ C I m×n , A∗ = [a∗ij ], adjointe de A, est l’élément de C I n×m tel que a∗ij = aji . a11 . . . a1n . .. .. A= . = X + iY am1 . . . amn a11 . . . am1 . .. 0 0 .. A∗ = . = X − iY a1n . . . amn Remarquons que A∗ = A0 si et seulement si A est réelle. On a les propriétés suivantes P1 : (A∗ )∗ = A, P2 : (A + B)∗ = A∗ + B ∗ , P3 : (λA)∗ = λA∗ , P4 : (AB)∗ = B ∗ A∗ . 1.3.2 Matrices hermitiennes On dit que A est hermitienne (respectivement symétrique) si A∗ = A (respectivement A0 = A). Bien sûr, des matrices hermitiennes (resp. symétriques) sont carrées. Remarquons que le produit de deux matrices hermitiennes n’est pas en général une matrice hermitienne. La propriété suivante sera démontrée au chapitre suivant P0 : Une matrice hermitienne A a toutes ses valeurs propres réelles et il existe une base orthonormée de C I n formée par les vecteurs propres de A. Notons Λ = diag(λ1 , . . . , λn ), λi ∈ IR la matrice diagonale des valeurs propres de A hermitienne et V = [v 1 , . . . , v n ] la matrice dont les colonnes sont les vecteurs propres correspondants. ∀i, Av i = λi v i ⇐⇒ AV = V Λ ∀i, j v i ∗ v j = δij ⇐⇒ V ∗ V = In , où In est la matrice identité d’ordre n. Si A est symétrique réelle, les vecteurs propres sont réels et forment une base orthonormée de IRn . 1.4 Image, noyau, rang d’une matrice On définit l’image, le rang et le noyau de la matrice A comme étant respectivement l’image, le rang et le noyau de l’application linéaire gA canoniquement associée à A. Dans le chapitre 2, nous verrons que la décomposition en valeurs singulières d’une matrice est un outil efficace permettant de déterminer le rang de la matrice et de construire des bases orthogonales pour l’image et pour le noyau lorsque celui-ci n’est pas réduit à {0}. 1.4.1 Image d’une matrice L’image de A ∈ IK m×n , notée Im A, est le sous espace vectoriel de IK m engendré par les colonnes de A. Im A = E{A1 , . . . , An } = {y ∈ IK m | ∃x ∈ IK n , Ax = y}. C’est l’ensemble des combinaisons linéaires, y = A1 x1 + . . . + An xn , des colonnes de A. La ième coordonnée, xi , de x s’appelle le poids de Ai dans l’expression de y. Systèmes d’équations linéaires compatibles Soit A ∈ IRm×n la matrice des coefficients du système et soit y ∈ IRm le vecteur second membre. Résoudre le système linéaire défini par le couple (A, y), c’est chercher une solution x telle que Ax = y. On dit que le système linéaire Ax = y est compatible s’il admet au moins une solution c’est à dire si y ∈ Im A. Tous les systèmes linéaires seront supposés réels, car un système sur C, I se décompose en deux sytèmes sur IR l’un correspondant à la partie réelle et l’autre à la partie imaginaire des nombres complexes. On verra au chapitre 4 comment résoudre un système compatible grâce à la notion d’inverse généralisé d’une matrice. Un système qui n’est pas compatible est dit impossible. La résolution d’un problème “aux moindres carrés” étudié au chapitre 4, permet, entre autres résultats, de décider si un système linéaire est impossible ou compatible. Un système linéaire défini par (A, 0) est dit homogène. Un système linéaire homogène est toujours compatible. L’ensemble des solutions d’un système homogène Ax = 0, s’appelle le noyau de A. 1.4.2 Noyau d’une matrice Le noyau de A ∈ IK m×n est le s.e.v. de IK n dont l’image est le zéro de IK m Ker A = {x ∈ IK n | Ax = 0m }. On a les propriétés suivantes, P1 : Ker A est non-vide car 0n ∈ Ker A. P2 : gA est injective ssi Ker A = {0n }. P3 : {Im A}⊥ = Ker A∗ et {Ker A}⊥ = Im A∗ (clef chapitre 2). 1.4.3 Rang d’une matrice Le rang de A ∈ IK m×n , noté rang(A), est le nombre de colonnes de A linéairement indépendantes, rang(A) = dim Im A. Outre que rang(X) ≤ min(m, n), on a les propriétés suivantes P0 : Théorème du rang : n = rang(A) + dim Ker A. P1 : gA est surjective (injective) ssi rang(A) = m (rang(A) = n). P2 : rang(A) = rang(A∗ ) = rang(A∗ A) = rang(AA∗ ). P3 : rang(AB) ≤ min(rang(A), rang(B)). P4 : rang(A + B) ≤ rang(A) + rang(B). P5 : Soient B et C deux matrices carrées inversibles. Alors, rang(BAC) = rang(A). 1.5 Déterminant d’une matrice carrée σ est une permutation sur {1, . . . , n} si et seulement si σ est une bijection de {1, . . . , n} sur lui-même. On verra dans la section 1.11.1 les propriétés d’une matrice associée à une permutation. Le déterminant d’une matrice n × n, A = [aij ] est l’unique nombre noté dét(A) X ²(σ)a1σ(1) a2σ(2) . . . anσ(n) , dét(A)= σ∈Sn où Sn est l’ensemble des n! permutations de {1, 2, . . . , n} et ²(σ) est la signature de la permutation σ. La signature vaut +1 si σ est une composition d’un nombre pair de permutations élémentaires, -1 si c’est une composition d’un nombre impair de permutations élémentaires (σ est dite élémentaire si σ(i) = j, σ(j) = i et σ(k) = k pour k 6= i, j). Cette définition est d’un coût calculatoire très élevé. Elle exprime le déterminant comme une fonction polynomiale des éléments de la matrice. L’expression suivante permet un calcul du déterminant de proche en proche en fonction de déterminants de matrices extraites de A, ce qui dans certains cas peut simplifier le calcul. Si A = [a] ∈ C I 1×1 , alors dét(A) = a. Si A ∈ C I n×n , développement du déterminant selon la colonne j n X dét(A) = cij aij pour j ∈ {1, . . . , n}, i=1 où cij est le cofacteur de l’élément aij de A, c’est à dire cij = (−1)i+j dét(Aij ). La matrice Aij est la matrice extraite de A en suprimant la ligne i et la colonne j. P0 : Le déterminant d’une matice carrée A = [A1 . . . An ] est une forme multilinaire alternée des colonnes de A, c’est à dire, (A1 , . . . , An ) −→ D(A1 , . . . , An ) = dét(A) avec D(A1 , . . . , λAj + µV j , . . . , An ) = λD(A1 , . . . , Aj , . . . , An ) + µD(A1 , . . . , V j , . . . , An ) D(A1 , . . . , Ai , . . . , Aj , . . . , An ) = −D(A1 , . . . , Aj , . . . , Ai , . . . , An ). Conséquences : * D(A1 , . . . , λAj , . . . , An ) = λD(A1 , . . . , Aj , . . . , An ). ** On ne change pas le déterminant d’une matrice carrée si à une colonne (une ligne) on ajoute une combinaison linéaire des autres colonnes (lignes). P1 : dét(AB) = dét(A)dét(B). P2 : dét(A∗ ) = dét(A). P3 : Si A est diagonale ou triangulaire alors dét(A) est le produit des éléments diagonaux. 1.6 Inverse d’une matrice carrée On dit que A carrée d’ordre n est inversible ou régulière s’il existe une matrice notée A−1 appelée inverse de A, telle que A−1 A = AA−1 = In . Si A−1 existe, cette matrice est unique. P1 : (AB)−1 = B −1 A−1 si A et B sont inversibles. P2 : si A est inversible, (A−1 )∗ = (A∗ )−1 . P3 : Soit C = [cij ] la matrice des cofacteurs de A, alors si A est inversible, A−1 = C 0 /dét(A). P4 : A carrée est inversible ssi A est de plein rang rang(A) = n c’est à dire dét(A) 6= 0. P5 : Si A est inversible, dét(A−1 ) = 1/dét(A). P6 : Systèmes d’équations linéaires de Cramer : Soient A ∈ IR n×n et y ∈ IRn , alors le système linéaire Ax = y est dit de Cramer si de façon équivalente (i) : dét(A) 6= 0, (ii) : rang(A) = n, (iii) : Il existe une unique solution x̂ = A−1 y. P7 : Caractérisation du rang d’une matrice n × p : Soit A ∈ IK n×p , Il esiste un entier naturel r ≤ min(n, p), possédant les propriétés suivantes : (i) : on peut extraire de A au moins une sous-matrice carrée régulière d’ordre r; (ii) : toute sous-matrice carrée d’ordre supérieur à r n’est pas régulière. Ce nombre r est appelé le rang de A. Ceci à pour conséquence la proptiété P2 rang(A) = rang(A∗ ) du rang d’une matrice. P8 : Si A = diag(a1 , . . . , an ) est inversible alors A−1 = diag(1/a1 , . . . , 1/an ). 1.7 Changements de base Soit E un espace vectoriel muni d’une base B = {e1 , . . . , en } que l’on qualifie d’ancienne base. On choisit dans E une autre base B 0 = {e01 , . . . , e0n } appelée nouvelle base. Dans tout le paragraphe 7, “prime” ne signifie pas “transposé” mais indique des objets relatifs à la nouvelle base. On appelle matrice de passage de la base B à la base B 0 , la matrice P carrée d’ordre n, dont les colonnes expriment les coordonnées des vecteurs de B 0 dans la base B. Cette matrice est régulière. La matrice de passage de B 0 à B est la matrice P −1 . 1.7.1 Effet sur les coordonnées d’un vecteur Soit x un élément de E dont les coordonnées dans les deux bases B et B 0 sont stockées dans les matrices colonnes X et X 0 . Alors X = P X0 1.7.2 et X 0 = P −1 X. Effet sur les éléments d’une matrice Soient E et F deux IK espaces vectoriels de dimension finie et g ∈ L(E, F ). Si E et F sont munis chacun d’une base B = {e1 , . . . , en } pour E et C = {f1 , . . . , fm } pour F , alors g s’exprime à l’aide d’une matrice A ∈ IK m×n dans les deux bases précédentes. Si on change maitenant la base B en une base B 0 = {e01 , . . . , e0n } et la base C en une base 0 C 0 = {f10 , . . . , fm }, la mème application linéaire g va s’exprimer dans ces nouvelles bases selon une autre matrice A0 . Qu’elle relation lie A et A0 qui appartiennent toutes deux à IK m×n . Soit P la matrice de passage de B à B 0 et soit Q la matrice de passage de C à C 0 , alors A0 = Q−1 AP . On dit que les matrices A et A0 sont équivalentes. Dans le cas particulier d’un endomorphisme g ∈ L(E, E), l’influence du changement de la base B en la base B 0 se traduit par A0 = P −1 AP . On dit alors que les matrices carrées A et A0 sont semblables. Si A et A0 sont semblables, dét(A) = dét(A0 ). S’il existe une base B 0 telle que A0 soit une matrice diagonale, on dit que la matrice A est diagonalisable c’est à dire semblable à une matrice diagonale. Les conditions pour que A soit diagonalisable sont présentées au chapitre 2. 1.8 Valeurs propres, vecteurs propres Un vecteur v non nul de C I n est appelé vecteur propre d’une matrice A ∈ C I n×n s’il existe un scalaire λ ∈ C I tel que Av = λv . Le scalaire λ est appelé valeur propre de A associée à v. L’ensemble des n valeurs propres est le spectre de la matrice. (1) On appelle rayon spectral de A le nombre positif ou nul ρ(A) = maxi |λi |. Remarquer que (1) s’écrit v 6= 0 v ∈ Ker (A − λIn ). et (1) Les vecteurs propres n’étant définis qu’à une homothétie près, le plus souvent, on choisit de normer à 1 un vecteur propre et la norme choisie est la norme Euclidienne (chapitre 3) kvk2 = 1 . Dans ce cas, un vecteur propre est défini au signe près. Déterminer le sous-espace propre associé à λ c’est à dire le sous-espace de C I n engendré par l’ensemble des vecteurs propres définis par (1), revient à résoudre le système d’équations linéaires homogène (A − λIn )v = 0n . Plus précisément, (a11 − λ)v1 + a12 v2 + . . . + a1n vn = 0 a21 v1 + (a22 − λ)v2 + . . . + a2n vn = 0 ......................... . . an1 v1 + an2 v2 + . . . + (ann − λ)vn = 0. Pour λ fixé, ce système de n équations à n inconnues possède une solution non nulle si et seulement si il n’est pas de Cramer. Le spectre de A est donc l’ensemble des n solutions, {λ1 , . . . , λn }, de l’équation caractéristique PA (λ) = dét(A − λIn ) = 0 (2) dont le premier membre est appelé le polynôme caractéristique de A. Ce polynôme de degré n en λ, s’écrit en fonction des éléments de A (on n’exprime que les coefficients les plus connus) PA (λ) = (−1)n λn + (−1)n−1 trace(A)λn−1 + . . . + dét(A), où la trace de la matrice A est la somme de ses éléments diagonaux trace(A) = a11 + . . . + ann , voir section 1.9. Une valeur propre de multiplicité ou d’ordre r de A est donc un zéro d’ordre r du polynôme caractéristique. Si A est réelle, alors, à toute valeur propre complexe, λi , est associée sa valeur propre conjuguée, λi . P1 : Deux matrices semblables ont mêmes polynômes caractéristiques. Comme conséquence, les coefficients de ce polynôme ne dépendent pas de A mais de g. En particulier le déterminant et la trace d’une matrice ne dépendent que de g. P2 : Si (λ, v) est un élément propre de A, alors Ak v = λk v, pour k entier positif. P3 : Soit {λ1 , . . . , λn } le spectre de A, alors, dét(A) = Πni=1 λi = λ1 . . . λn . Comme conséquence, pour qu’une matrice A soit régulière, il faut et il suffit qu’elle n’admette aucune valeur propre nulle. P4 : Si (λ, v) est un élément propre de A inversible, A−1 v = λ−1 v. P5 : Si (λ, v) est un élément propre de A, P(A)v = P(λ)v pour tout polynôme P. P6 : Cayley-Hamilton : PA (A) = 0n×n P7 : Perron : Pour une matrice carrée à éléments positifs, la valeur propre la plus grande en module est également positive. C’est une valeur propre simple et le vecteur propre associé est à coordonnées de même signe (positives). P8 : Les valeurs propres non-nulles des produits AB et BA sont les mêmes. précisément, soient A n × m et B m × n (m > n), alors dét(λIm − BA) = λm−n dét(λIn − AB) . P9 : Si A est une matrice diagonale ou triangulaire, alors λi = aii , ∀i. 1.9 Trace d’une matrice carrée La trace de A = [aij ] ∈ C I n×n est définie par la somme des éléments diagonaux n X trace(A) = aii . i=1 Plus Propriétés P1 : trace(A) = trace(A0 ). P2 : Linéarité : trace(A + B) = trace(A) + trace(B) trace(αA) = α trace(A). P3 : Invariance par permutation : trace(AB) = trace(BA), si AB et BA sont carrées. P P4 : trace(A) = i λi , si {λ1 , . . . , λn } = spect(A). (Clef, théorème de Schur). P5 : Deux matrices semblables ont même trace, trace(P −1 AP ) = trace(A). 1.10 Formes linéaires, formes quadratiques Produit scalaire défini sur un espace vectoriel E : Soit E un espace vectoriel pas forcément de dimension finie, une application de E × E dans C I (IR) est un produit scalaire ssi à tout couple (x, y) elle fait correspondre le nombre complexe (réel) < x, y > tel que D1 : < x, y >= < y, x >. D2 : < α1 x1 + α2 x2 , y >= α1 < x1 , y > +α2 < x2 , y > D3 : < x, x >≥ 0 ∀α1 , α2 ∈ C I (IR). (réel d’après D1). D4 : < x, x >= 0 ⇐⇒ x = 0E . Comme première propriété < x, αy >= α < x, y > . La norme Euclidienne d’un élément x associée au produit scalaire est définie par √ kxk = < x, x >. L’inégalité suivante dite de Cauchy-Schwarz est donnée par | < x, y > | ≤ kxkkyk . L’égalité a lieu si les vecteurs sont colinéaires. En dimension finie, on note par x0 = [x1 , . . . , xn ] le vecteur ligne transposé du vecteur colonne x et par x∗ = [x1 . . . , xn ] le vecteur adjoint, alors le produit scalaire usuel se calcule par ∗ < x, y >= y x = n X i=1 xi y i sur C I n, 0 < x, y >= y x = n X xi yi sur IRn . i=1 On verra au chapitre 3 que la norme Euclidienne associée au produit scalaire usuel est la 2-norme de Hölder définie par v , u n uX |xi |2 . kxk2 = t i=1 Soit a ∈ C I n , l’application ϕ de C I n dans C I est appelée une forme linéaire si x −→ ϕ(x) =< x, a >= a∗ x . Soit A ∈ C I n×n hermitienne, l’application φ de C I n dans IR est appelée une forme quadratique si x −→ φ(x) =< Ax, x >= x∗ Ax. En effet, d’après D1, A hermitienne entraine que < Ax, x > est réel < Ax, x >= x∗ Ax = x∗ A∗ x =< x, Ax >= < Ax, x > . Remarque : Dans le cas réel, supposons A ∈ IRn×n non symétrique et x ∈ IR, alors 1 ϕA (x) = x0 Ax = x0 ( (A + A0 ))x = ϕ 1 (A+A0 ) (x). 2 2 La matrice 12 (A + A0 ) est symétrique. Dans le cas réel, l’hypothése de symétrie de A est donc toujours implicitement admise. On dit que A hermitienne, est définie positive si x∗ Ax > 0 semi définie positive si x∗ Ax ≥ 0 ∀x 6= 0, ∀x. La forme quadratique associée est définie positive (resp. semi définie positive) . De façon évidente, les matrices réelles BB ∗ et B ∗ B sont semi définies positives. Montrons le pour B ∗ B, x∗ B ∗ Bx = kBxk22 ≥ 0 . B ∗ B est définie positive si et seulement si Ker B = {0}, c’est à dire, B est de plein rang P colonne. En effet, dans ce cas : Bx = i B i xi = 0 ⇐⇒ x = 0. 1.11 Matrices orthogonales et unitaires Soit une matrice U de C I m×n (m ≥ n), l’espace C I m des colonnes de U étant muni du produit scalaire usuel. On dit que U est unitaire si les colonnes de U sont des vecteurs 2 à 2 orthogonaux et de norme unité, c’est à dire si U ∗ U = In . Lorsque U est réelle ont dit que U est orthogonale, dans ce cas U 0 U = In . Premières propriétés des matrices unitaires : P1 : Le produit de 2 matrices unitaires est une matrice unitaire. P2 : Une matrice carrée est unitaire si et seulement si U −1 = U ∗ . P3 : Le déterminant d’une matrice carrée unitaire est de module égal à 1. 1.11.1 Les matrices de permutation Soit une σ {1, 2, 3, 4}, permutation définie 1 2 3 4 i . σ(i) 3 1 4 2 dans la section 1.5, par exemple sur La matrice de passage de la base canonique {ei } de IRn à la base {fi = eσ(i) }, Q = [eσ(1) , . . . , eσ(n) ], est appelée la matrice de permutation associée à σ, 0 0 Q= 1 0 La permutation inverse 0 0 1 1 0 0 −1 D’où Q = 0 0 0 0 1 0 permutation. 1 0 0 0 0 0 0 1 0 1 0 . 0 1 2 3 4 i est définie par . σ −1 (i) 2 4 1 3 0 0 0 1 = Q . Cette propriété est vraie pour toutes les matrices de 0 Soit X = [x1 , x2 , x3 , x4 ]0 la matrice colonne des coordonnées d’un vecteur dans {ei } et Y la matrice colonne des coordonnées de ce vecteur dans la base permutée, alors Y = Q−1 X = [x3 , x1 , x4 , x2 ]0 . Multiplier à gauche une matrice par Q−1 revient à permuter ses lignes selon σ et la multiplier à droite par Q permute ses colonnes selon σ. Sur l’exemple, X = [x1 , x2 , x3 , x4 ] alors XQ = [x3 , x1 , x4 , x2 ]. 1.11.2 Les matrices de rotation La dimension 2 : Une matrice Q, 2 × 2, orthogonale est une matrice de rotation si " # cos(θ) − sin(θ) Q= , (dét(Q) = 1) . sin(θ) cos(θ) Alors, y = Qx est obtenu par rotation de x d’un angle θ. La dimension n : Une matrice Q(i, k, θ), n × n, orthogonale est une matrice de rotation de Givens si elle est de la forme 1 ... 0 Q(i, k, θ) = ... 0 . .. 0 ... ... 0 .. . . . . cos(θ) .. . . . . sin(θ) .. . ... 0 ... ... ... ... ... 0 .. . − sin(θ) .. . cos(θ) .. . 0 ... 0 .. . ... 0 .. . ... 0 . . . .. . ... 1 , (dét(Q(i, k, θ)) = 1) , obtenue par modification de la matrice identité In à l’intersection des lignes, colonnes i et k. Si y = Q(i, k, θ)x, y est obtenu par la rotation de x d’un angle θ dans le sens direct dans le plan défini par les deux vecteurs ei et ek de la base canonique (y diffère de x seulement sur les coordonnées i et k). 1.11.3 Construction d’une base orthonormée par le procédé de Gram-Schmidt Proposition : A partir d’un ensemble de vecteurs linéairement indépendants de IK n {f1 , . . . , fk }, on peut construire un ensemble de vecteurs {q1 , . . . , qk } orthonormés qui engendrent le même espace E{f1 , . . . , fk } = E{q1 , . . . , qk } . 2 Preuve : Construisons d’abord une suite de k vecteurs {p1 , . . . , pk } deux à deux orthog- onaux. p1 = f 1 p2 = f 2 − . . ... pi = f i − < p1 , f2 > p1 kp1 k22 < p2 , fi > < pi−1 , fi > < p1 , fi > p1 − p2 . . . − pi−1 2 2 kp1 k2 kp2 k2 kpi−1 k22 i ≤ k. On vérifie que < pi , pj >= 0 pour j < i et que E{f1 , . . . , fi } = E{p1 , . . . , pi } . La suite {qi = pi }i=1...k kpi k2 est bien une suite de vecteurs orthonormés. Si de plus k = n, c’est une base de IK n . 1.12 Opérateur vec et produit de Kronecker 1.12.1 L’opérateur vec 2 Soit A = [A1 , . . . , Ap ], une matrice n × p. On définit l’opérateur vec d’empilement des colonnes par A1 . np . vec(A) = . ∈ IK Ap A1 . Si A = .. , l’empilement en colonne des lignes de A se fait par vec(A0 ) ∈ IK np . En An général, vec(A) 6= vec(A0 ) sauf si A est une matrice colonne, Notations : (vec(A))0 = vec0 (A) et (vec(A))∗ = vec∗ (A) Propriétés P1 : Linéarité : vec(αA + βB) = α vec(A) + β vec(B) P2 : Soient X et Y deux matrices n × p trace(Y ∗ X) = 1.12.2 Pp j=1 Pn i=1 y ij xij = vec∗ (Y )vec(X) =< vec(X), vec(Y ) >. Produit de Kronecker Soient A = [aij ] une matrice n × p et B = [bij ] une matrice m × q. Alors le produit de Kronecker de A par B est une matrice nm × pq. a B ··· a1p B 11 ... . .. A ⊗ B = [aij B] = .. aij B . . . . an1 B ··· anp B . Propriétés Les trois premières propriétés justifient le nom de produit. P1 : (α A) ⊗ B = A ⊗ (α B) = α(A ⊗ B). P2 : Soient A et B deux matrices de mêmes dimensions, C et D, deux autres matrices de mêmes dimensions, alors (A + B) ⊗ (C + D) = A ⊗ C + A ⊗ D + B ⊗ C + B ⊗ D. P3 : (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C). P4 : Inp = In ⊗ Ip = Ip ⊗ In . P5 : (A ⊗ B)∗ = A∗ ⊗ B ∗ . P6 : (AC) ⊗ (BD) = (A ⊗ B)(C ⊗ D). P7 : Soient A,B, deux matrices régulières, (A ⊗ B)−1 = A−1 ⊗ B −1 P8 : Soient A,B, deux matrices carrées, alors P9 : Si x et y sont x1 y1 .. xy 0 = . xn y1 trace(A ⊗ B) = trace(A)trace(B). des matrices colonnes alors · · · x 1 yp .. ... 0 0 . = x ⊗ y = y ⊗ x = [y1 x| · · · |yp x]. · · · x n yp y1 x . . vec(xy) = . = y ⊗ x. yp x P10 : Soient A, B, deux matrices carrées respectivement n × n et p × p avec spect(A) = {λ1 , . . . , λn } et spect(B) = {µ1 , . . . , µp } alors spect(A ⊗ B) = {λi µj / i = 1, . . . , n; j = 1, . . . , p}, xi ⊗ yj est vecteur propre de A ⊗ B, si xi et yj sont les vecteurs propres associés respectivement à λi et à µj . 2 P11 : Soient A et B, deux matrices hermitiennes (semi) définies positives, alors A ⊗ B est une matrice hermitienne (semi) définie positive. P12 : Si A est n × n et B est p × p, dét(A ⊗ B) = (dét(A))p (dét(B))n . P13 : rang(A ⊗ B) = rang(A)rang(B). P14 : Le produit de Kronecker de 2 matrices unitaires est une matrice unitaire. P15 : Le produit de Kronecker de 2 matrices diagonales (rep. triangulaires) est une matrice diagonale (resp. triangulaire). Vectorisation d’un produit de matrices Proposition : Soient A, B et C telles que ABC existe. Alors, vec(ABC) = (C 0 ⊗ A)vec(B). Preuve : Soit p le nombre de colonnes de B, B = donne vec(ABC) = vec p = X j=1 à p X AB j e0j C j=1 ! = p X j=1 = (C 0 ⊗ A) X j=1 Pp j=1 B j e0j . La propriété P9 ¡ ¢ vec AB j (C 0 ej )0 (C 0 ej ) ⊗ (AB j ) = (C 0 ⊗ A) p 2 p X j=1 ej ⊗ B j vec(B j e0j ) = (C 0 ⊗ A)vec à p X j=1 B j e0j ! . 2 Cas particulier vec(AB) = (Ip ⊗ A)vec(B) = (B 0 ⊗ Im )vec(A) avec A matrice m × n et B matrice n × p. Corollaire : Soient A, B, C et D telles que ABCD soit carrée trace(ABCD) = vec0 (A0 )(D0 ⊗ B)vec(C) . 1.12.3 2 Matrice de commutation Lorsque l’on a besoin d’exprimer vec(A0 ) en fonction de vec(A), la matrice de commutation permet ce passage. On appelle Kmn , la matrice de commutation d’ordre m × n avec dim(Kmn ) = mn × mn m X n X Kmn = Eij (m, n) ⊗ Eij0 (m, n). i=1 j=1 Exemple : Soit m = 3 et n = 2 alors K32 est une 1 0 0 0 0 0 0 1 0 1 0 0 K32 = 0 0 0 0 0 0 1 0 0 0 0 0 matrice 6 × 6 0 0 0 0 0 0 . 1 0 0 0 0 1 Remarque : Kmn est une matrice de permutation. Proposition : Soit A une matrice m × n, alors vec(A0 ) = Kmn vec(A). 2 Remarque : vec(A) = Knm vec(A0 ). Propriétés 0 −1 P1 : Kmn = Knm = Kmn P2 : K1n = Kn1 = In . P3 : Soient A et B, deux matrices respectivement n × s et m × t Kmn (A ⊗ B) = (B ⊗ A)Kts ⇔ B ⊗ A = Kmn (A ⊗ B)Kst ⇔ A ⊗ B = Knm (B ⊗ A)Kts . 1.13 Exercices Exercice 1 : Dans l’espace IR-espace vectoriel de dimension 4. 1) Soit D = {u1 , u2 , u3 , u4 } une base de E et soit g une application linéaire de E dans lui-même (on dit un endomorphisme de E) ayant pour matrice N dans la base D : (a, b, c et d désignent des réels quelconques) 1 0 a b 0 1 c d . N = 0 0 0 0 0 0 0 0 On notera Im g l’image de g et Ker g son noyau. a) Calculer le rang de g ainsi que la dimension de Ker g. b) Donner une base pour Im g. c) Soient v1 = au1 + cu2 − u3 , v2 = bu1 + du2 − u4 . Démontrer que {v1 , v2 } est une base de Ker g. 2) Soit B = {e1 , e2 , e3 , e4 } une base de E. On pose : c1 = e2 + 2e3 + 2e4 , c2 = e1 + e2 + 2e3 + 3e4 , c3 = 2e1 + 2e2 + 2e3 + 3e4 et c4 = 2e1 + 3e2 + 3e3 + 3e4 . a) Démontrer que C = {c1 , c2 , c3 , c4 } est une base de E. b) Ecrire la matrice de passage P de B à C et calculer son inverse. c) Soit f l’endomorphisme de E défini par f (e1 ) = −e1 −3e2 −6e3 −7e4 , f (e2 ) = 2e1 +5e2 +10e3 +12e4 , f (e3 ) = −3e1 −5e2 −10e3 −13e4 et f (e4 ) = 2e1 + 3e2 + 6e3 + 8e4 . Calculer la matrice M de f dans la base B puis la matrice M 0 de f dans la base C. d) Donner une base BI pour Im f et une base BK pour Ker f (les vecteurs de BI et BK devront être exprimés dans la base B). e) Soit V le sous-espace vectoriel de E engendré par c1 et c2 . Soit q la projection de E sur V . Calculer Q la matrice de q dans la base B Exercice 2 : Soit E l’espace vectoriel des polynômes sur IR de degré inférieur ou égal à 3. Déterminer le rang du système de vecteurs {u1 , u2 , u3 } de E défini par : u1 = 4 + 3X + 2X 2 + X 3 , u2 = 6 + 2X + 2X 2 + 2X 3 et u3 = −8 − 11X − 6X 2 + X 3 . Exercice 3 : Soit B = {e1 , e2 , e3 , e4 } une base de IR4 . On considère l’endomorphisme f de IR4 et sa matrice Af,B associée dans la 0 1 Af,B = 1 1 base B 1) Calculer les valeurs propres de f . 1 1 1 0 1 1 . 1 0 1 1 1 0 2) Pour chaque valeur propre λ de f , déterminer l’espace propre correspondant. 3) Déduire que f est diagonalisable. 4) Trouver en l’exprimant dans la base B, une base C = {u1 , u2 , u3 , u4 } de IR4 avec Af,C diagonale et préciser quelle est la matrice Af,C . Exercice 4 : Soit la matrice 1 −3 -4 A = −1 3 4 . 1 −3 −4 Calculer A2 . Calculer (I + A)(I − A) où I est la matrice unité d’ordre 3. En déduire que I + A est inversible. Exercice 5 : On considère la matrice 7 4 0 0 −12 −7 0 0 A= 20 11 −6 −12 −12 −6 6 11 1) Calculer les valeurs propres de A. . 2) A est-elle diagonalisable? Inversible? 3) Déterminer une base de l’espace propre associé à la plus grande valeur propre de A. Exercice 6 : La matrice suivante est-elle 1 2 1 3 A= 2 4 1 1 inversible? Si oui, calculer son inverse 3 1 3 2 . 3 3 1 1 Exercice 7 : Montrer que la matrice suivante est inversible dans M33 (IR) et calculer son inverse Exercice 8: −3 5 6 . A= −1 0 −1 −2 1 1 Démontrer ces quelques ”petits” résultats utiles, les matrices sont supposées réelles. 1.1. A m × n, B n × p, C n × p, M m × m symétrique définie positive, x n × 1. a) Ax = 0 ⇐⇒ A0 Ax = 0 et Ker A = Ker A0 M A. b) AB = 0 ⇐⇒ A0 AB = 0. c) A0 AB = A0 AC ⇐⇒ AB = AC. 1.2. A m × n, B n × n, C n × n symétrique. a) (Ax = 0, ∀x ∈ IRn ) ⇐⇒ A = 0. b) (x0 Ay = 0, ∀x ∈ IRm , ∀y ∈ IRn ) ⇐⇒ A = 0. c) (x0 Cx = 0, ∀x ∈ IRn ) ⇐⇒ C = 0. d) (x0 Bx = 0, ∀x ∈ IRn ) ⇐⇒ B 0 = −B. 1.3. Soient B m × p et C p × n, alors A = BC s’écrit A= p X B i Ci , i=1 où B i et Ci sont respectivement la ième colonne de B et la ième ligne de C. Si D = diag(d1 , . . . , dp ) alors A = BDC s’écrit A= p X di B i Ci . i=1 Exercice 9 : Montrer que trace(AB) = trace(BA). Exercice 10 : Soit A une matrice n × n et spect(A) = {λi }i . Soit B une matrice p × p et spect(B) = {µj }j . Montrer que les np valeurs propres de A ⊗ B sont λi µj et que, si x est un vecteur propre de A et y un vecteur propre de B, alors, x ⊗ y est vecteur propre de A ⊗ B. " 0 1 # qu’il y a des vecteurs propres de A ⊗ B qui ne 0 0 se déduisent pas des vecteurs propres de A et B. Vérifier sur l’exemple A = B = Exercice 11 : Soient A et B deux matrices carrées d’ordre respectifs n et p. a) Montrer que si A et B sont symétriques (semi) définies positives, alors A ⊗ B est symétrique (semi) définie positive. b) Montrer que : dét(A ⊗ B) = [dét(A)]p [dét(B)]n c) Montrer que : rang(A ⊗ B) = rang(A)rang(B). 0 Indication : Montrer que 0 rang(A ⊗ B) = rang((AA ) ⊗ (BB )) et conclure en utilisant la DVS. Exercice 12 : Soit A une matrice n × n. Démontrer que vec(A0 ) = Kmn vec(A) avec Kmn = m X n X i=1 j=1 Eij (m, n) ⊗ Eij0 (m, n). Chapter 2 Décomposition de Matrices On a vu qu’une application linéaire f de l’espace vectoriel E dans l’espace vectoriel F , tous deux de dimension finie, pouvait être représentée par une matrice A relativement aux bases choisies dans ces espaces. Une application linéaire étant ainsi représentée par différentes matrices selon les bases choisies, le problème se pose de trouver des bases dans lesquelles la matrice représentant l’application linéaire soit la plus simple possible. C’est le problème de la réduction d’une matrice. Le cas le plus simple est celui des matrices carrées diagonalisables. Mais toutes les matrices carrées ne sont pas diagonalisables... D’autre part, toutes les matrices ne sont pas carrées. Comment réduire des matrices rectangulaires? Ou plutôt, comment décomposer une matrice en un produit de matrices ayant de ”bonnes” propriétés? Cependant, avant d’aborder les différents types de réduction ou de décomposition et pour mieux comprendre leur interprétation géométrique, il est nécessaire d’aborder la notion de projecteur qui sera développée au chapitre suivant. 2.1 Les projecteurs La notion de projection est fondamentale tant en analyse fonctionnelle lors de l’approximation par des séries de fonctions qu’en statistique où pour prendre un exemple simple, la moyenne d’une variable s’exprime comme la projection sur la ”droite des constantes”. De nombreuses méthodes statistiques comme la régression linéaire, l’analyse en composantes principales, etc, sont basées sur les projecteurs. Dans tous les espaces vectoriels sur lesquels on a défini un produit scalaire, la projection est un outil pour résoudre de nombreux problèmes d’optimisation. On reviendra sur cette notion qui est abordée dans la section suivante. 31 2.1.1 Sous espaces supplémentaires et projecteurs Soient F et G deux s.e.v. du IK-e.v. E. F + G = {x + y | x ∈ F, y ∈ G} et On dit que F et G sont supplémentaires si F De façon équivalente : F × G = {(x, y) | x ∈ F, y ∈ G} . T G = {0E } et F + G = E. tout vecteur x de E s’écrit de manière unique x = u + v avec u ∈ F et v ∈ G. E est alors somme directe de F et G noté E = F ⊕ G Remarquons que le supplémentaire d’un s.e.v. n’est pas unique. Si F et G sont supplémentaires, les applications p et q de E dans E définies par ∀x ∈ E, x = p(x) + q(x) avec p(x) ∈ F et sont linéaires (endomorphismes de E) et vérifient : P1 p2 = p ; q 2 = q (idempotence) P2 poq=q op=0 P3 p + q = IdE P4 Im p = F = Ker q et q(x) ∈ G Im q = G = Ker p. On dit que p est la projection sur F parallèlement à G et que q = IdE − p est la projection sur G parallèlement à F ou encore le projecteur supplémentaire de p. On appelle projecteur dans un IK-e.v. E tout endomorphisme idempotent de E. Dans le cas particulier où les deux sous espaces supplémentaires sont orthogonaux (bien sûr, E est muni d’un produit scalaire) E = F ⊕ F⊥ alors les projecteurs p et q associés sont dits projecteurs orthogonaux. 2.1.2 Exemple fondamental Soient u et v de IK n muni du produit scalaire usuel, tels que < u, v >= v ∗ u = 1 . Remarquons que, puisque < u, v >= kuk2 kvk2 cos(u, v), la condition précédente impose que l’angle vectoriel entre u et v est aigu. Considérons la matrice n × n P = uv ∗ . Cette matrice jouit des propriétés suivantes : P 2 = uv ∗ uv ∗ = uv ∗ = P et si x ∈ Im u, c’est à dire si x = αu, P x = uv ∗ (αu) = αuv ∗ u = αu = x . Mais, si x est orthogonal à v, alors P x = uv ∗ x = u(v ∗ x) = 0 . L’image de P est donc Im u, le noyau de P est le sous espace vectoriel de dimension n − 1 orthogonal à v. IK n = Im u ⊕ {Im v}⊥ . P est donc la matrice de l’application linéaire ”projection sur u parallèlement à {Im v} ⊥ ”. x Ker P v Px u Im P Figure 1 : Projection sur u parallèlement à {Im v}⊥ . Si on choisit v = u et kuk2 = 1, dans ce cas, le projecteur orthogonal s’écrit P = uu∗ . D’une façon plus générale, soit F donné ainsi qu’une base {u1 , . . . , ur } orthonormée de F . Soit U = [u1 , . . . , ur ], alors U ∗ U = Ir . On montrera au chapitre suivant que la matrice P = r X ui u∗i = U U ∗ i=1 est le projecteur orthogonal sur F = Im U . Le projecteur (P 2 = P ) est orthogonal car P = P ∗. 2.1.3 D’autres matrices orthogonales : les matrices de réflexion La dimension 2 : Une matrice Q, 2 × 2, orthogonale et symétrique, est une matrice de réflexion si elle est de la forme Q= " cos(θ) sin(θ) sin(θ) − cos(θ) # (dét(Q) = −1) . , Si y = Qx = Q0 x, y est obtenu par symétrie du vecteur x par rapport à la droite vectorielle définie par S = Im " cos(θ/2) sin(θ/2) # . La dimension n : Soit v ∈ IRn , v 6= 0, une matrice Q, n × n, orthogonale et symétrique, est une matrice de réflexion de Householder si elle est de la forme Q(v) = In − 2vv 0 /v 0 v , (dét(Q(v)) = −1) . Par un léger abus de langage on convient que Q(0) = In bien que dét(Q(0)) = 1. Reflexion Q(v) = I - 2 P Projection orthogonale P = vv’/ v’v u = Px x=z+u v z = (I - P) x {Im v} -u y = Q(v) x = z - u Figure 2: Symétrie par rapport à l’hyperplan vectoriel {Im v}⊥ . Si y = Q(v)x = Q0 (v)x, y est obtenu par symétrie du vecteur x par rapport à l’hyperplan vectoriel {Im v}⊥ = {z = (z1 , . . . , zn ) ∈ IRn | z 0 v = v1 z1 + . . . vn zn = 0}. Cela résulte du fait que la matrice P = vv 0 /v 0 v est la matrice de projection orthogonale sur Im v (clef section 2 1.2). Proposition : Toute matrice Q n × n orthogonale peut s’écrire comme le produit de n réflexions ∃ v1 , . . . , vn ∈ IRn , Q = Q(v1 ) . . . Q(vn ) . Remarque : Les endomorphismes de (IRn , k.k2 ) canoniquement associés à des matri- ces carrées orthogonales Q, sont appelés des isométries de (IRn , k.k2 ) car d’après P4 les normes sont conservées (kQxk2 = kxk2 ) ou de façon équivalente les produits scalaires (< Qx, Qy >= y 0 Q0 Qx =< x, y >). Pour les angles, on a cos(Qx, Qy) = < Qx, Qy > = cos(x, y). kQxk2 kQyk2 2.2 Matrices carrées diagonalisables Une matrice carrée A d’ordre n est diagonalisable si elle est semblable à une matrice diagonale Λ = diag(λ1 , . . . , λn ), c’est à dire s’il existe une matrice S inversible (matrice de passage de l’ancienne base à la base diagonalisante) telle que Λ = S −1 AS ⇐⇒ A = SΛS −1 ⇐⇒ AS = SΛ ⇐⇒ S −1 A = ΛS −1 . La ième colonne de S est le vecteur propre de A associé à la valeur propre λi . Condition nécessaire et suffisante : Une condition nécessaire et suffisante pour que A carrée d’ordre n, soit diagonalisable est que ses n vecteurs propres soient linéairement indépendants. 2 Condition suffisante : Les vecteurs propres associés à des valeurs propres distinctes sont linéairement indépendants. Si toutes les valeurs propres de A sont distinctes, alors A est diagonalisable. 2 Décomposition spectrale de A diagonalisable : Soit A diagonalisable telle que A = SΛS −1 . Associés à λi , notons ui la ième colonne de S et v i∗ la ième ligne de S −1 . La décompositon spectrale de A s’écrit A= n X λi ui v i∗ i=1 Le vecteur v i est vecteur propre de A∗ associé à λi et v j ∗ ui = 0, si j 6= i. Ceci signifie que les vecteurs propres distincts de A et de A∗ sont orthogonaux. 2 Preuve : La diagonalisation donne S −1 A = ΛS −1 . La ième ligne de cette équation matricielle s’écrit v i∗ A = λi v i∗ et en prenant l’adjointe A∗ v i = λi v i . D’autre part, S −1 S = I signifie que v j ∗ ui = δij . 2 Remarquons que les valeurs propres λi ne sont pas toutes forcément distinctes. Regroupons les valeurs propres égales. Soit ni la multiplicité de λi , n = n1 + . . . + n s . Posons N0 = 0 et pour i = 1 à s, Ni = n1 + . . . + ni . A s’écrit Ni s X X A= λi uk v k∗ . i=1 Posons Pi = k=Ni−1 +1 Ni X k=Ni−1 +1 uk v k∗ alors A= s X λi P i i=1 I= s X Pi . i=1 C’est l’écriture de la décomposition spectrale de A par les projecteurs sur les sous espaces propres Ker(A − λi I). En effet les matrices Pi vérifient les propriétés suivantes. Pi2 = Pi APi = λi Pi 2.3 et P i Pj = 0 j 6= i . Factorisation QR d’une matrice rectangulaire Nous avons vu comment par le procédé de Gram-Schmidt, il est possible à partir d’une famille libre {A1 , . . . , An } de vecteurs de IK m (m ≥ n), de construire une famille {Q1 , . . . , Qn } orthonormée qui engendre le même espace. La construction de la matrice unitaire Q1 = [Q1 , . . . , Qn ] à partir de la matrice de plein rang colonne A = [A1 , . . . , An ] est ainsi basée sur le système A1 A2 . n A d’équations = r11 Q1 = r12 Q1 + r22 Q2 . ··· = r1n Q1 + r2n Q2 + · · · + rnn Qn . Ceci conduit à la forme ”maigre” de la factorisation QR. Version ”maigre” de la factorisation QR Soit A ∈ C I m×n (m ≥ n) une matrice de plein rang colonne, A = Q 1 R1 est unique avec Q1 matrice m × n unitaire et R1 ∈ C I n×n matrice triangulaire supérieure à éléments diagonaux réels positifs. 2 La construction de Q1 et de R1 par la procédure de Gram-Schmidt est numériquement instable à cause de la propagation des erreurs d’arrondi dues au fait que les colonnes de Q1 sont calculées ”en cascade” : Q2 est construite à partir de de Q1 , Q3 en fonction de Q2 et Q1 , etc. D’autres méthodes (voir exercice) numériquement plus stables sont mises en oeuvre. Il est difficile de connaı̂tre à priori le rang d’une matrice. La version ”pleine” de la factorisation QR supprime l’hypothèse de plein rang colonne pour A. Version ”pleine” de la factorisation QR Soit A ∈ C I m×n (m ≥ n), il existe Q et R telles que " # R A=Q 0 avec Q matrice m × m unitaire et R ∈ C I n×n matrice triangulaire supérieure à éléments diagonaux réels positifs ou nuls. Si A est de plein rang colonne alors les n premières colonnes de Q forment une base orthonormée de ImA et la diagonale de R est à éléments positifs. 2.4 2 Décomposition unitaire des matrices carrées Le théorème suivant indique que toute matrice carrée est triangularisable. 2.4.1 Le théorème de Schur Théorème de Schur : Si A ∈ C I n×n , il existe une matrice unitaire U ∈ C I n×n (U ∗ U = U U ∗ = In ) et une matrice triangulaire supérieure T telles que A = UT U∗ , U ∗ AU = T , AU = U T , U ∗A = T U ∗ , où T = Λ + N avec Λ = diag(λ1 , . . . , λn ) matrice diagonale des valeurs propres de A et N matrice triangulaire supérieure stricte. 2 Remarque : Les colonnes de U ou vecteurs de Schur, solutions de AU = U Λ + U N , peuvent être complexes même si A est réelle. Dans le cas A réel, les valeurs propres complexes sont deux à deux conjuguées. Les vecteurs de Schur ne sont vecteurs propres de A que si N = 0 (matrices normales), dans ce cas, A est diagonalisable. Premières applications A1 trace(A) = trace(U T U ∗ ) = trace(U ∗ U T ) = trace(T ) = P i A2 dét(A) = dét(U T U ∗ ) = dét(U )dét(T )dét(U −1 ) = dét(T ) = 2.4.2 Matrices normales Une matrice carrée A est normale ssi A∗ A = AA∗ . λi . Q i λi . Exemples : Les matrices hermitiennes A∗ = A, unitaires A∗ A = AA∗ = I, antihermitiennes A∗ = −A, sont normales. Proposition : A est normale ssi il existe une matrice carrée U unitaire telle que A = U ΛU ∗ , U ∗ AU = Λ , AU = U Λ , U ∗ A = ΛU ∗ . Λ est la matrice diagonale formée des valeurs propres de A. Autrement dit, une matrice normale est diagonalisable et les vecteurs propres (les colonnes de U ) sont orthonormés. 2 ? A = U ΛU ∗ =⇒ A∗ A = AA∗ Preuve : A∗ A = U Λ∗ ΛU ∗ et AA∗ = U ΛΛ∗ U ∗ . Or Λ∗ Λ = ΛΛ∗ = diag(|λi |2 ). Donc A∗ A = AA∗ . ? A∗ A = AA∗ =⇒ A = U ΛU ∗ La décomposition de Schur donne A = U T U ∗ avec T triangulaire supérieure. Si A est normale alors T triangulaire supérieure est normale ce qui implique T diagonale (voir exercice). 2 Remarque : Lorsque A est normale, la décomposition spectrale de A s’écrit Ni n s X X X A= λi ui ui∗ = λi uk uk∗ . i=1 i=1 k=Ni−1 +1 Le projecteur Ni X Pi = uk uk∗ k=Ni−1 +1 sur le sous espace propre associé à λi est maintenant orthogonal car Pi∗ = Pi . Revenons sur les trois exemples de matrices normales. Matrices hermitiennes H1 Une matrice hermitienne est diagonalisable. Ses valeurs propres sont réelles et ses vecteurs propres orthogonaux. 2 Preuve : Seul reste à montrer que les valeurs propres sont réelles. A∗ = A, donc Λ∗ = Λ ce qui implique λi = λi . 2 H2 Une matrice symétrique et réelle est diagonalisable. Ses valeurs propres sont réelles et ses vecteurs propres sont réels et orthogonaux. 2 Preuve : Une matrice symétrique réelle est hermitienne. Tout vecteur propre u est réel puisque solution du système linéaire réel (A − λI)u = 0. 2 H3 Une matrice hermitienne est (semi) définie positive ssi toutes ses valeurs propres sont positives (non négatives). Preuve : Soit (λ, u) avec kuk22 2 = 1 un élément propre de A hermitienne (semi) définie positive. Alors, < Au, u >=< λu, u >= λ. Si A est (semi) définie positive λ est positif (positif ou nul). Réciproquement, soit A hermitienne, A = U ΛU ∗ , < Ax, x >=< U ΛU −1 x, x >=< ΛU −1 x, U −1 x > . Posons y = U −1 x. Les composantes du vecteur y sont les composantes du même vecteur dans la base de IK n formée des vecteurs propres {u1 , . . . , un } de A. < Ax, x >= n X i=1 λi |yi |2 . Le vecteur y est non nul ssi x est non nul. Supposons tous les λi strictement positifs, alors ∀x 6= 0 < Ax, x > > 0. Supposons maintenant tous les λi ≥ 0. Notons I = {i ∈ {1, . . . , n} | λi > 0} et supposons son complémentaire I = {i ∈ {1, . . . , n} | λi = 0} non vide. Alors, ImA = E{ui }i∈I et KerA = E{ui }i∈I sont des sous espaces vectoriels supplémentaires orthogonaux et < Ax, x >= X i∈I La nullité est obtenue pour x dans KerA. λi |yi |2 ≥ 0 . 2 H4 Critère de Sylvester : Une matrice hermitienne est (semi) définie positive ssi tous ses mineurs principaux sont positifs (non-négatifs). Preuve, voir exercice 6. H5 Soit A une matrice hermitienne (semi) définie positive. On peut construire une matrice hermitienne (semi) définie positive notée A1/2 telle que A = (A1/2 )2 . 2 Preuve : A = U ΛU ∗ où Λ = diag(λi ) avec λi positf ou (positif ou nul). Définissons √ Λ1/2 = diag( λi ); donc, (Λ1/2 )2 = Λ. Alors, A1/2 = U Λ1/2 U ∗ est hermitienne (semi) définie positive et (A1/2 )2 = A. Matrices unitaires 2 U1 Une matrice carrée unitaire est diagonalisable, ses valeurs propres ont pour module 1 et ses vecteurs propres sont orthogonaux. 2 Preuve : Reste à montrer que les valeurs propres sont de module 1. A est carrée unitaire, A∗ = A−1 . Comme AA∗ = A∗ A = I, ΛΛ∗ = Λ∗ Λ = I. L’égalité des éléments diagonaux donne |λi |2 = 1. 2 Matrices anti-hermitiennes AH1 Une matrice anti-hermitienne est diagonalisable, ses valeurs propres sont des imaginaires purs et les vecteurs propres sont orthogonaux. 2 Preuve : Reste à montrer que les valeurs propres sont des imaginaires purs. A∗ = −A implique que Λ∗ = −Λ et en écrivant les éléments diagonaux, λi = −λi . 2.5 2 Décomposition en valeurs singulières Pour une matrice rectangulaire la notion de valeur propre n’a pas de sens. Néanmoins, les matrices carrées A∗ A et AA∗ sont hermitiennes semi définies positives. De plus, rang(A) = rang(A∗ A) = rang(AA∗ ) = r , et d’après la propriété P7 de la section 1.8, les r valeurs propres non nulles (positives) de A∗ A et AA∗ sont identiques. On appelle valeurs singulières de A les racines carrées des valeurs propres non nulles de A∗ A ou de A∗ A µi = 2.5.1 p p λi (A∗ A) = λi (AA∗ ). Deux versions de la DVS Version ”maigre” (DVS1) : Soit A m × n telle que rang(A) = r. Alors A= ∗ U Λ1/2 r V = r X µi ui v i∗ i=1 • U = [u1 | · · · |ur ] unitaire m × r est telle que ui est vecteur propre de AA∗ associé à la valeur propre non nulle λi . • V = [v 1 | · · · |v r ] unitaire n × r est telle que v i est vecteur propre de A∗ A associé à la valeur propre non nulle λi . 1/2 • Λr = diag(λ1 , ..., λr ) et Λr singulière de A. = diag(µ1 , ..., µr ), où µi = √ λi est la ième valeur 2 Version ”pleine” (DVS2) : Soit A m × n de rang r. Alors A = P ΛQ∗ . P = [u1 |...|ur |ur+1 |...|um ] = [U |Ũ ] carrée m × m unitaire et Q = [v 1 |...|v r |v r+1 |...|v n ] = [V |Ṽ ] carrée n × n unitaire, ont leurs colonnes formées respectivement par les vecteurs propres de AA∗ et de A∗ A. Pour obtenir P (resp. Q) on complète les vecteurs colonnes de U (resp. V ) de la DVS1 par les vecteurs colonnes de Ũ (resp Ṽ ) qui sont les vecteurs propres de AA∗ (resp A∗ A) associés à la valeur propre multiple 0. On forme ainsi une ∗ base orthonormée de IK m (resp. IK n ) : P ∗ P = P P∗ = Im , Q∗ Q = QQ = In . De plus " 1/2 # µ1 0 Λr 0 1/2 . , r × r. 2 .. Λ= , m×n, Λr = 0 0 0 µr Remarque : Lorsque A est réelle, A∗ = A0 est réelle ainsi que U, V, P et Q. Preuve : AA∗ et AA∗ sont hermitiennes (symétriques), semi-définies positives et ont mêmes valeurs propres non nulles. Par Schur, ∃Q unitaire telle que Q∗ A∗ AQ = diag(µ21 , ..., µ2n ). Posons C = AQ. Soit cj la jème colonne de C, alors ci∗ cj = µ2i δij . Comme rang(AQ) = r, on peut supposer que µ1 , ..., µr sont strictement positifs et que µr+1 , ..., µn sont nuls. Alors cj = 0m pour j = r + 1, ..., n, car c’est un vecteur associé à une valeur propre nulle et donc kcj k22 = 0. On construit P par colonnes : j pj = µ−1 j c si j = 1, ..., r. (*) pi∗ pj = (µi µj )−1 ci∗ cj = δij pour 1 ≤ i, j ≤ r. On complète la matrice P pour former une base orthonormée de IK m , P = [p1 · · · pm ] et ∀i, j ∈ {1, ..., m} pi∗ pj = δij . Vérifions DVS2 en calculant un élément de la matrice P ∗ AQ : Si 1 ≤ i, j ≤ r, [P ∗ AQ]ij = pi∗ cj = µj δij . Si j > r, [P ∗ AQ]ij = 0 car alors cj = 0m . Si j ≤ r et si i > r, pi∗ cj = µj pi∗ pj = 0. Donc, P ∗ AQ = Λ. Vérifions que les colonnes de P sont les vecteurs propres de AA∗ : AA∗ P = AIn A∗ P = AQQ∗ A∗ P = AQΛ∗ = P ΛΛ∗ 2 µ 0 0 1 .. ... . = P . 2 0 0 µ r 0 ··· 0 0 Par construction les colonnes de Q sont vecteurs propres de A∗ A. 2 Remarque : Dans la pratique : • Le nombre de valeurs singulières fournit le rang de la matrice. Ces valeurs singulières sont ordonnées, µ1 ≥ . . . ≥ µr > 0, ce qui induit un ordre sur les colonnes de U et de V . • Dans le calcul de U et de V , on ne calcule les vecteurs propres de AA∗ ou de A∗ A que pour celle de ces matrices de plus petite dimension, les vecteurs propres de l’autre se déduisent par des ”formules de transition” (*) et (**). Par exemple, si m ≥ n, on calcule les vecteurs propres v 1 , . . . , v r de A∗ A, ceux de AA∗ associés aux valeurs propres non nulles, sont donnés par U = AV Λ−1/2 , r −1/2 où Λr (∗) 1/2 = (Λr )−1 = diag(1/µ1 , . . . , 1/µr ). Dans l’autre cas, on utilise V = A∗ U Λ−1/2 . r (∗∗) Pour obtenir la DVS pleine il faut calculer les vecteurs propres associés aux valeurs propres nulles. Corollaire 1 : La décomposition en valeurs singulières donne ∗ A A=V Λ2r V ∗ = r X i=1 µ2i v i v i∗ , ∗ AA = U Λ2r U ∗ = r X µ2i ui ui∗ . 2 i=1 Cas particulier : DVS d’une matrice hermitienne semi-définie positive A∗ A = AA∗ = A2 et les valeurs singulières de A sont égales à ses valeurs propres. Alors, U = V dans la DVS1 et la décomposition de Schur concide avec la DVS (modulo le signe des vecteurs propres). Corollaire 2 : Soit A m × n avec rang(A) = r. La DVS2 de A s’écrit A = P ΛQ∗ , avec P = [U |Ũ ] et Q = [V |Ṽ ]. Alors, Ker A = Ker A∗ A = Im Ṽ = E(v r+1 , ..., v n ), Im A = Im AA∗ = Im U = E(u1 , ..., ur ), Im A∗ = Im V = E(v 1 , ..., v r ) = {Ker A}⊥ , où E(xi , . . . , xj ) désigne l’espace vectoriel engendré par les vecteurs xi , ..., xj . 2 Preuve de la première égalité Ax = 0 ⇔ A∗ Ax = 0. Donc Ker A = Ker A∗ A. Comme A = U Λr V ∗ d’après la DVS1, x ∈ Ker A⇐⇒ U Λr V ∗ x = 0. Comme (AB = 0) ⇐⇒ (A∗ AB = 0), on obtient : Λr U ∗ U Λr V ∗ x = 0 ⇔ Λ2r V ∗ x = 0 ⇔ V ∗ x = 0, puisque Λr est inversible. x orthogonal aux vecteurs colonnes de V , c’est-à-dire à (v 1 , ..., v r ), appartient à E(v r+1 , ..., v n ). 2 Corollaire 3 : Il y a d’importantes projections orthogonales associées à la décomposition 1/2 en valeurs singulières. Soit A supposée de rang r et A = U Λr V ∗ = P ΛQ∗ , la DVS de A. Rappelons les partitions colonnes de P et de Q P = [U |Ũ ] , Q = [V |Ṽ ]. Les résultats sur la projection orthogonale présentés dans l’exemple fondamental et qui seront démontrés au chapitre 4 doivent être associés au corollaire 2 pour donner V V ∗ = projection orthogonale sur {Ker A}⊥ = Im A∗ Ṽ Ṽ ∗ = projection orthogonale sur Ker A U U ∗ = projection orthogonale sur Im A Ũ Ũ ∗ = projection orthogonale sur {Im A}⊥ = Ker A∗ Corollaire 4 : Éléments propres de la matrice de projection sur Im A 1/2 Proposition : Soit A = U Λr V ∗ = P ΛQ∗ , la DVS de la matrice A de rang r. La matrice PA = U U ∗ est diagonalisable, ses vecteurs propres sont les colonnes de P et donc orthonormés, ses valeurs propres sont 0 ou 1. Les vecteurs propres associés à la valeur propre 1 sont les colonnes de U ceux associés à 0 sont les colonnes de Ũ . De plus, trace(PA ) = rang (PA ) = rang (A). 2 ∗ Preuve : Bien sûr, PA = U U hermitienne est diagonalisable. Le fait que P = [U |Ũ ] est carrée unitaire donne P ∗ = P −1 et PA = P En outre, trace(PA ) = trace(Ir ) = r. 2.5.2 " Ir 0 0 0 # P −1 . 2 Décomposition polaire Proposition : Soit A carrée n × n, alors il existe une matrice carrée unitaire U et une matrice H hermitienne semi définie positive telles que A = UH . 2 Preuve : Si A = P ΛQ∗ est carrée n × n, alors P , Λ et Q de la DVS2 sont carrées n × n. On pose . A = P ΛQ∗ = (P Q∗ ) (QΛQ∗ ) = U H avec U = P Q∗ et H = QΛQ∗ . U est unitaire comme produit de matrices unitaires et H est par construction hermitienne semi définie positive. 2 Remarque : Le nom de ”décomposition polaire” rappelle la représentation polaire d’un nombre complexe z = ρeiθ (ρ réel positif ou nul et eiθ nombre complexe unitaire). Il y a analogie entre ces deux idées car les valeurs propres de H sont des nombres réels non négatifs, et les valeurs propres de U sont des nombres complexes unitaires. Pour une matrice A normale, l’analogie est encore plus stricte : une valeur propre λ de A est de la forme λ = ρeiθ où ρ est une valeur propre de H et eiθ est valeur propre de U . En effet, par Schur, pour A normale, de valeurs propres {ρj eiθj }j , ∃V unitaire telle que A = V diag(eiθ1 , . . . , eiθn ) diag(ρ1 , . . . , ρn )V ∗ ¢ ¡ = V diag(eiθ1 , . . . , eiθn )V ∗ (V diag(ρ1 , . . . , ρn ) V ∗ ) = U H. 2.6 Factorisation de Cholesky d’une matrice symétrique définie positive Proposition : Soit A n × n réelle symétrique, définie positive. Il existe T triangulaire supérieure avec Tii > 0 telle que A = T 0T . Cette décomposition est unique. 2 Intérêt A symétrique définie positive est souvent utilisée en statistique comme métrique sur IR n et définit ainsi le produit scalaire : ∀x, y ∈ IRn , < x, y >A = y 0 Ax. La décomposition de Cholesky de A donne < x, y >A =< T x, T y >In . Changer de métrique revient donc à effectuer un transformation linéaire des données. Cette transformation n’est pas unique : une autre transformation est obtenue par la factorisation A = A1/2 A1/2 où A1/2 est la matrice hermitienne définie positive obtenue à partir de la décomposition en valeurs singulières de la matrice A hermitienne définie positive, ou par la décomposition de Schur, voir la propriété H4 des matrices hermitiennes. Cette décomposition donne < x, y >A =< A1/2 x, A1/2 y >In . 2.7 Exercices Exercice 1 : Soient θ un angle exprimé en radians et w dont l’expression dans la base canonique est w= " cos(θ/2) sin(θ/2) # . 5.1 Calculer en fonction de θ le vecteur v ∈ IR2 déduit de w par une rotation de π/2. 5.2 Soit x un vecteur de IR2 muni du produit scalaire usuel. a) Calculer u, projection orthogonale de x sur Im v. Montrer que u = vv 0 x. On note P = vv 0 , la matrice de la projection orthogonale sur Im v. Vérifier les deux propriétés qui caractérisent un projecteur orthogonal. Calculer P en fonction de θ. Quel est le rang de P ? Calculer les valeurs propres et les vecteurs propres de P . b) Soit y le vecteur déduit de x par symétrie par rapport à la droite vectorielle Im w = {Im v}⊥ . Exprimer y en fonction de u et de x. On note Q la matrice telle que y = Qx. Exprimer Q en fonction de v et vérifier que " # cos(θ) sin(θ) Q= . sin(θ) − cos(θ) Quelles sont les propriétés de Q appelée matrice de réflexion par rapport à {Im v} ⊥ ? Exercice 2 : Démonstration du théorème de Schur : Soit A ∈ C I n×n , construire pour n = 2, une matrice U carrée unitaire telle que T = U ∗ AU soit triangulaire supérieure dont les éléments diagonaux soient λ1 et λ2 , valeurs propres de A. En supposant ce résultat vrai à l’ordre n − 1 montrer qu’il est vrai à l’ordre n. Exercice 3 : Montrer qu’une matrice triangulaire supérieure normale est diagonale. Exercice 4 : La norme de Frobénius d’une matrice A étant définie par kAkF = (trace(A∗ A))1/2 , montrer que pour une matrice A carrée quelconque, on peut mesurer l’écart de A à la normalité grce à la norme de Frobénius de la partie hors diagonale N de la matrice T dans la décompsition de Schur de A, X . |λi |2 = ∆2 (A) . kN k2F = kAk2F − i Cette quantité ne dépend pas du choix de U , plus ∆2 (A) est proche de 0, plus A est près d’être normale. Dire pourquoi une autre mesure de l’écart de A à la normalité est kAA∗ − A∗ Ak2F . Exercice 5 : Décomposer la matrice 1 A= 0 2 0 , −1 −2 en valeurs singulières. Dans l’espace vectoriel IR3 muni de la base canonique, représenter Im A et {Im A}⊥ . Donner l’expression des matrices de projection orthogonale sur Im A, {Im A}⊥ , Im A0 et {Im A0 }⊥ . Exercice 6 : Critère de Sylvester On se propose de montrer que pour A symétrique réelle, {A définie positive} ⇐⇒ { les mineurs principaux sont positifs }. Soit A = [aij ] une matrice réelle symétrique, n × n, définie positive. On appelle kième matrice principale de A, notée Ak , la matrice k × k obtenue en supprimant les n − k dernières lignes et dernières colonnes de A. Remarquer que An = A. On appelle kième mineur principal de A, le déterminant de Ak , noté dét(Ak ). 6.1. a. Montrer que aii > 0 pour i = 1, . . . , n. b. Ecrire la décomposition spectrale de A. Calculer dét(A) en fonction des valeurs propres de A. Dire pourquoi dét(A)> 0 et A−1 est symétrique définie positive. 6.2. Soient B et P les matrices (n + 1) × (n + 1) définies par B= " A b b0 α # , P = " In −A−1 b 00 1 # . a. Calculer C = P 0 BP par blocs. Quel est le spectre de C? Montrer que dét(C) = dét(B) = dét(A) (α − b0 A−1 b). b. Montrer que dét(B) ≤ α dét(A) et que légalité a lieu si et seulement si b = 0. c. Montrer que B est définie positive si et seulement si C est définie positive. d. Montrer que dét(B) > 0 si et seulement si C est définie positive. e. Déduire des précédentes questions que dét(B) > 0 si et seulement si B est définie positive 6.3. Montrer que pour A symétrique, {A définie positive} ⇐⇒ {dét(A k ) > 0 , k = 1, . . . n}. a. Sens =⇒ : on note Ek la matrice k ×n, définie par blocs par Ek = [Ik 0k×(n−k) ], où Ik est la matrice identité d’ordre k. Calculer Ak en fonction de A (supposée définie positive) et de Ek . En déduire que toute matrice Ak est définie positive et donc que tout mineur principal est positif. b. Sens ⇐= : exprimer les blocs de Ak+1 en fonction de Ak , ak+1 k+1 et d’un vecteur bk+1 à déterminer. Vérifier que A1 est symétrique définie positive. Montrer par récurrence que toutes les matrices principales sont définies positives. Exercice 7 : Soit la matrice " 1 1 0 y= " X= et le vecteur -1 0 0 1 1 1 1 1 1 # # . 1. Calculer la décomposition en valeurs singulières (dvs) maigre de X (les valeurs singulières de X étant classées par ordre décroissant). Puis la dvs pleine. 2. Quel est le rang de X? Expliciter le noyau de X. Ecrire la matrice de la projection orthogonale sur Ker X, puis le vecteur projection de y sur Ker X. 3. Ecrire l’expression analytique du plan vectoriel Im X, l’expression de la matrice de la projection orthogonale sur Im X, puis le vecteur projection de y sur Im X. Chapter 3 Normes de Matrices En Analyse Numérique, en Statistique et dans d’autres disciplines, les inconnues de certains problèmes sont des vecteurs ou des matrices. De nombreuses méthodes consistent à construire un élément d’un sous espace vectoriel le plus proche d’un autre élément qui lui, est connu. Il est donc nécessaire de savoir mesurer des distances entre vecteurs ou entre matrices. Pour cela on peut définir une norme sur l’espace vectoriel auquel ils appartiennent. Les deux opérations suivantes vont permettre de définir des normes Euclidiennes sur l’espace vectoriel des matrices. 3.1 Normes de vecteurs Soit E un IK-espace vectoriel (IK est IR ou C). I Une norme sur E est une application k.k de E dans IR+ telle que kxk = 0 ⇐⇒ x = 0E kλxk = |λ| kxk x ∈ E, λ ∈ IK kx + yk ≤ kxk + kyk x, y ∈ E . Une norme définit une distance entre deux éléments de E par d(x, y) = kx − yk. 51 Ainsi, la norme de x est la distance de x au vecteur nul d(x, 0E ) = kxk. 3.1.1 Normes de Hölder Lorsque E est de dimension finie, E = IK n , une norme de Hölder ou p-norme (p ≥ 1) est définie par kxkp = à n X i=1 |xi |p !1/p . Les deux premiers axiomes sont évidents, on montre le troisième par une inégalité dite de Hölder ¯ n ¯ ¯X ¯ ¯ ¯ xi yi ¯ ≤ kxkp kykq ¯ ¯ ¯ 1 1 + = 1. p q i=1 Un cas particulier important est celui où p = q = 2 qui donne l’inégalité de CauchySchwarz. Les 1, 2, ∞ normes sont les plus usuelles n X kxk1 = kxk2 = à i=1 n X i=1 |xi | |xi |2 !1/2 kxk∞ = max |xi | . i=1,n La 2-norme est dite euclidienne car elle est associée à un produit scalaire < ., . > sur E, kxk2 = √ < x, x > . La boule unité Bp = {x ∈ E | kxkp ≤ 1} est un compact (fermé, borné) de E dont la frontière Sp = {x ∈ E | kxkp = 1} est la sphère unité. La boule unité ouverte est l’ensemble des éléments de Bp qui n’appartiennent pas à Sp (≤ est remplacé par < dans Bp ). Lorsque E = IR2 , la figure ci dessous représente les sphères unités S1 , S2 et S∞ . 1 Sinf S2 S1 1 Figure 3 : sphère unité pour les p-normes usuelles, p = 1, p = 2 et p = +∞. Toutes les normes de IK n sont équivalentes, c’est à dire si k . kα et k . kβ sont deux normes il existe des constantes positives c1 et c2 telles que c1 kxkα ≤ kxkβ ≤ c2 kxkα . La relation précédente s’écrit 1 1 n( p − q ) kxkq ≤ kxkp ≤ kxkq p > q ≥ 1. Supposons que x b est une approximation de x, pour une norme donnée on dit que εabs = kx − x bk est l’erreur absolue tandis que, si x 6= 0 εrel = est l’erreur relative. En particulier, si kx − x bk kxk kx − x bk∞ ≈ 10−p kxk∞ alors la plus grande composante a approximativement p décimales correctes. On dit qu’une suite {xk } de vecteurs converge vers x si lim kxk − xk = 0 . k→∞ Les normes sur IK n étant équivalentes, la notion de convergence ne dépend pas de la norme choisie. 3.1.2 Généralisation de la norme Euclidienne, la M -norme Il est possible d’utiliser des produits scalaires définis à partir de formes hermitiennes définies positives, qui sont plus généraux que le produit scalaire usuel présenté dans la section 1.10. En statistique en particulier, de tels produits scalaires sont utilisés pour définir des normes, des notions d’orthogonalité et de projection plus adaptées aux problèmes étudiés. En dimension finie E = C In (ou IRn ), la donnée d’une matrice M hermitienne (symétrique) définie positive, appelée une métrique, permet de définir un produit scalaire < x, y >M = y ∗ M x = < M x, y >In . La norme vectorielle euclidienne sur (E, M ) est définie par kxkM = √ < x, x >M = √ x∗ M x . Remarques : R1 : Le produit scalaire usuel et la 2-norme vectorielle associée définis dans la section 1.10 correspondent à M = In c’est à dire à la métrique définie par la matrice identité. R2 : (IRn , M ) est aussi l’espace affine d’origine o attaché à l’espace vectoriel (IR n , M ). −→ −→ On définit pour deux points m1 et m2 , om1 = x, om2 = y, et la M -distance entre m1 et m2 par dM (m1 , m2 )2 = (y − x)0 M (y − x). La sphère unité SM = {x ∈ E | x∗ M x = 1} est l’ensemble de niveau 1 de la forme quadratique définie positive x → kxk2M = x∗ M x. " √ # 1 3 ) qui 5 √ Par exemple, la figure suivante montre la sphère unité de (IR 2 , M = 3 7 4 est une ellipse dont les axes principaux sont les vecteurs propres de M . S M Figure 4 : sphère unité pour l’espace (IR2 , M ). Dans le cas n = 2 réel, la ligne de niveau k d’une forme quadratique définie positive est donc une ellipse de centre l’origine des coordonnées. Si la forme quadratique est semi définie positive (rang M = 1), l’ensemble de niveau k est formé de 2 droites parallèles à Ker M . Le graphe G = {(x, y = x0 M x) ∈ IR3 | x ∈ IR2 } est représenté selon le cas, par : y y e3 e3 O e1 O e2 e2 x e1 x2 x x1 x2 x1 Figure 5 : graphe d’une forme quadratique définie positive puis semi définie positive de (IR2 , M ). L’orthogonalité au sens de M ou M -orthogonalité entre deux vecteurs s’écrit < x, y >M = y ∗ M x = 0 . 3.2 Normes de matrices L’analyse d’algorithmes matriciels nécessite souvent l’usage de normes matricielles. Par exemple, telle méthode de résolution de systèmes linéaires pourra être peu performante si la matrice des coefficients est proche de la singularité. D’autre part en statistique exploratoire de données multivariées, il arrive que l’on désire approcher une matrice X b de rang plus petit. On désire donc quantifier la notion de distance sur par une matrice X l’espace vectoriel des matrices de dimension n × p noté IK n×p . Il ya deux façons de construire une norme de matrice: la “subordination” à une norme vectorielle ou la “vectorisation” du tableau de nombres. La première fait appel à l’application linéaire associée à la matrice. La seconde consiste à identifier les deux espaces vectoriels IK n×p et IK np grâce à l’opérateur vec. Dans cette dernière approche, nous n’étudierons que les normes Euclidiennes. 3.2.1 Normes subordonnées à des normes vectorielles Généralités Soient (E, k.kE ) et (F, k.kF ) deux IK espaces vectoriels normés de dimension quelconque pas forcément finie. Soit f une application linéaire de E dans F f (αx + βy) = αf (x) + βf (y) α, β ∈ IK, x, y ∈ E . Il est de plus grand intérêt de comparer kxkE et kf (x)kF . Supposons x 6= 0E , et construisons le rapport r(x) = kf (x)kF . kxkE Ce rapport est invariant par homothétie, r(λx) = r(x), λ ∈ IK − {0}. Proposition : Pour que l’application linéaire f de E dans F soit continue, il faut et il suffit que r(x) soit majoré. Proposition : 2 Sur L(E, k.kE ; F, k.kF ) espace vectoriel des applications linéaires continues de (E, k.kE ) dans (F, k.kF ), kf kE,F = sup x6=0E kf (x)kF = sup kf (x)kF kxkE kxkE =1 est une norme dite subordonnée aux normes vectorielles k.kE et k.kF . Comme corollaire, kf (x)kF ≤ kf kE,F kxkE x∈E. 2 Normes matricielles subordonnées Soient E = IK n et F = IK m munis de la même p-norme k.kp pour simplifier. A chaque choix d’une base E = {ej }j=1,n pour E et d’une base F = {fi }i=1,m pour F , l’application linéaire f est caractérisée par la matrice A = [ai j ] de dimensions m × n telle que f (ej ) = m X aij fi . i=1 Les éléments de la jième colonne de A sont les composantes du vecteur f (ej ) dans F. Les composantes du vecteur y = f (x) dans la base F sont calculées à partir des composantes de x dans la base E par le produit matriciel y = Ax . Toute application linéaire f de IK n dans IK m munis de n’importe quelle norme, étant continue, on définit kAkp = sup x6=0E kAxkp = sup kAxkp = kAb xk p kxkp kxkp =1 pour un x b de la sphère unité de IK n . On obtient la relation x ∈ IK n . kAxkp ≤ kAkp kxkp Remarquons que la matrice identité est de p-norme égale à 1 quelle que soit la valeur de p. On verra qu’il existe d’autres normes matricielles qui donnent des valeurs différentes. Le calcul des normes p = 1 et p = ∞ est très simple kAk1 = max m X |aij | kAk∞ = max n X |aij | . j=1...n i=1...m 0 i=1 j=1 On vérifie immédiatement que kAk∞ = kA k1 . Le calcul de la 2-norme n’est pas aussi explicite. Son calcul nécessite l’usage des propriétés des matrices hermitiennes. La 2-norme subordonnée Pour A ∈ C I m×n , il s’agit de maximiser la quantité r(x) = kAxk2 . kxk2 Un vecteur x ∈ C I n se décompose sur la base orthonormée {v i } formée par les vecteurs propres de A∗ A ordonnés par ordre décroissant des valeurs propres, λ1 ≥ . . . ≥ λn ≥ 0. x= n X xi v i ∗ et x = i=1 n X xj v j∗ . j=1 L’orthonormalité de la base choisie conduit à P λi |xi |2 2 ≤ λ1 . λn ≤ r(x) = Pi 2 i |xi | Le maximum est réalisé pour x = v 1 , premier vecteur propre. Pour résumer kAk2 = µ1 = p ρ(A∗ A) , où µ1 est la plus grande valeur singulière de A et ρ(A∗ A) est le rayon spectral de A∗ A. Si de plus, A est hermitienne, alors kAk2 = ρ(A) . 3.2.2 Normes Euclidiennes par vectorisation L’identification de IK m×n avec IK mn grâce à l’opérateur vec, permet de définir par vectorisation, des normes matricielles associées aux p-normes de Hölder. Cependant, nous ne présenterons que le cas p = 2, Euclidien, qui conduit à la norme de Frobénius. Norme de Frobénius On a vu précédemment dans la propriété P2 de l’opérateur vec, que pour deux matrices X et Y de C I m×n , trace(Y ∗ X) = Pn j=1 Pm i=1 y ij xij = vec∗ (Y )vec(X) =< vec(X), vec(Y ) >, ce qui définit le produit scalaire usuel sur Mnp (I C) par < X, Y >= trace(Y ∗ X). La norme de Frobénius de A ∈ C I m×n est définie par p kAkF = trace(A∗ A) = à n X m X j=1 i=1 |aij | 2 !1/2 = à n X j=1 kAj k22 !1/2 , où Aj est la jième colonne de A. On vérifie que cette norme Euclidienne n’est pas subordonnée à une norme vecto√ rielle car kIn kF = n alors que le résultat est 1 pour toute p-norme subordonnée. L’inégalité de Cauchy-Schwarz s’écrit: [trace(Y ∗ X)]2 ≤ trace(X ∗ X)trace(Y ∗ Y ); égalité si Y = kX. La propriété P4 de la trace permet d’écrire, si rang(A) = r, kAk2F = n X ∗ λi (A A) = kAk2 ≤ kAkF ≤ µ2i . i=1 i=1 Il en résulte que r X √ nkAk2 . Comme conséquence, il vient kAxk2 ≤ kAk2 kxk2 ≤ kAkF kxk2 . On dit alors que la norme de Frobénius et la norme vectorielle euclidienne sont compatibles. Norme de Hilbert-Schmidt En analyse statistique des données on est ammené à définir des métriques sur chacun des espaces vectoriels associés aux lignes et aux colonnes d’une matrice réelle. On définit le triplet (IRn×p , M, D) par la donnée de IRn×p espace vectoriel des matrices réelles n × p, M métrique Euclidienne sur l’espace IRp des lignes, D métrique Euclidienne sur l’espace IRn des colonnes. D’après P11, M ⊗ D est une métrique sur IRnp et d’autre part, trace(Y 0 DXM ) = vec0 (Y )(M ⊗ D)vec(X) =< vec(X), vec(Y ) >M ⊗D . Le produit scalaire de Hilbert-Schmidt associé au triplet (IR n×p , M, D) est obtenu par identification de ce triplet à l’e.v. Euclidien (IR np , M ⊗ D). Il est défini par < X, Y >M ⊗D = trace(Y 0 DXM ). La norme de Hilbert-Schmidt associée est alors p kXkM ⊗D = trace(X 0 DXM ). De façon symétrique, kXkM ⊗D = Cas particuliers p trace(XM X 0 D) = kX 0 kD⊗M . • (IRn×p , M = Ip , D = In ). Alors, M ⊗ D = Inp . On retrouve les produits scalaires usuels et la norme de Frobénius de X, kXk2Ip ⊗In = trace(X 0 X) = kXk2F . • (IRn×p , M = Ip , D). La structure de M ⊗ D est bloc-diagonale, chaque bloc étant D. Dans ce cas, le carré de la norme de X s’exprime comme la somme des carrés des D-normes des colonnes X i , kXk2Ip ⊗D = trace(X 0 DX) = Pp i=1 kX i k2D . • (ES , D, D), où ES est le s.e.v. de IRn×n formé des matrices symétriques. Alors, kXk2D⊗D = trace((XD)2 ). Remarque kXk2M ⊗D = kD1/2 XM 1/2 k2F On retrouve la norme Euclidienne usuelle des matrices par transformation des lignes et des colonnes. 3.2.3 Normes matricielles sous multiplicatives Les normes matricielles considérées ont été déduites des normes vectorielles soit par subordination soit par vectorisation. Ces normes sont construites sur l’espace vectoriel des matrices rectangulaires, c’est à dire que seules les opérations + et multiplication par un scalaire sont définies. Cependant une autre opération joue un rôle fondamental: la multiplication entre matrices. Que peut-on dire de la norme d’un produit AB? La définition et la proposition suivantes permettent de répondre à cette question. Une norme matricielle est dite sous multiplicative si ∀A ∈ C I m×n , ∀B ∈ C I n×p . kABk ≤ kAkkBk Proposition : La norme de Frobénius ainsi que toute p-norme sont des normes sous multiplicatives. 2 (Preuve en exercice). Remarquons que l’on peut construire des contre-exemples. Ainsi la norme non subordonnée kAk∆ = max |aij | (vérifier que c’est une norme obtenue par vectorisation) i,j appliquée à A= " 1 1 1 1 # donne kABk∆ > kAk∆ kBk∆ . Proposition : A toute norme matricielle sous multiplicative on peut toujours associer une norme vectorielle qui lui soit compatible. Preuve : 2 Soit kAk une norme matricielle de la matrice A. Pour une ma- trice B telle que le produit AB existe on a kABk ≤ kAkkBk. x associons la matrice X première égale à x. = A un vecteur [x, 0, . . . , 0] où les colonnes sont nulles sauf la Il est clair que kxk = kXk est une norme vectorielle. kAxk = k[Ax, 0, . . . , 0]k = kAXk ≤ kAkkXk = kAkkxk. Donc, 2 Proposition : Quelle que soit la norme matricielle k.k sous multiplicative, pour une matrice carrée A on a ρ(A) ≤ kAk . 2 Preuve : Pour le vecteur Au = λu, on choisit une norme vectorielle compatible et |λ| kuk = kλ uk = kAuk ≤ kAkkuk . Quelle que soit la valeur propre, |λ| ≤ kAk, ce qui achève la preuve 2. Conséquence : Si A est hermitienne, la 2-norme est la plus petite des normes de A sous multiplicatives. 3.2.4 Normes unitairement invariantes Dans la section 1.11 la notion de matrice unitaire (orthogonale, dans le cas réel) a déjà été exposée dans le cadre du produit scalaire usuel. Si l’on dispose d’un M -produit scalaire, la définition de matrices M -unitaires est immédiate. Une matrice U de C I m×n (m ≥ n), C I m étant muni de la métrique euclidienne M , est M -unitaire si les colonnes de U sont des vecteurs 2 à 2 M -orthogonaux et de M -norme unité, c’est à dire si U ∗ M U = In . Lorsque U et M sont à coefficients réels ont dit que U est M -orthogonale, dans ce cas U 0 M U = In . Une matrice est unitaire (orthogonale) si M = Im . Les normes Euclidiennes ne changent pas lorsque la matrice concernée est multipliée par une matrice orthogonale ou unitaire. Normes unitairement invariantes : Voici la suite des propriétés P1, P2 et P3 concernant les matrices unitaires définies dans la section 1.11 : P4 : La norme vectorielle Euclidienne est unitairement invariante kU xk2 = kxk2 , ∀U unitaire. P5 : Pour les M - normes vectorielles, on obtient kU xkM = kxk2 , ∀U M -unitaire. P6 : La 2-norme et la norme de Frobénius sont des normes matricielles invariantes par transformation unitaire. kU AV k = kAk, 3.3 ∀U, V unitaires, V carrée. Suites de matrices Comme pour les suites de vecteurs, en considérant l’ensemble C I m×n comme un espace vectoriel de dimension mn, la convergence d’une suite de matrices est indépendante de la norme choisie. Elle équivaut à la convergence des mn suites de scalaires formées par les éléments des matrices. Le théorème suivant donne les conditions nécessaires et suffisantes pour que la suite des puissances d’une matrice carrée donnée converge vers la matrice nulle. Le deuxième théorème concerne la convergence de la série géométrique de matrices carrées. Proposition : Soit B une matrice carrée. Les conditions suivantes sont équivalentes. lim B k = 0. (i) k→∞ lim B k v = 0 (ii) k→∞ pour tout vecteur v. (iii) ρ(B) < 1. (iv) kBk < 1 pour au moins une norme matricielle subordonnée k.k. 2 Proposition : La série I + B + B 2 + . . . converge vers (I − B)−1 ssi ρ(B) < 1 . 3.4 2 Conditionnement d’une matrice En analyse numérique matricielle ainsi qu’en statistique, les données sont généralement entachées d’erreurs et parfois une légère perturbation sur les données peut entrainer une grande perturbation sur la solution du problème considéré. Prenons l’exemple dû à R.S. Wilson du système linéaire x1 10 7 8 7 32 7 5 6 5 x2 23 de solution 8 6 10 9 x = 33 3 x4 7 5 9 10 31 1 1 1 . 1 Si l’on perturbe légèrement le second membre b d’une erreur relative de l’ordre de 1/200 pour obtenir b = [32.1, 22.9, 33.1, 30.9]0 , alors, la solution du nouveau système devient x = [9.2, −12.6, 4.5, −1.1]0 !! Bien que la matrice A du système soit inversible (dét(A) = 1), c’est à dire bien que ses vecteurs colonnes soient linéairement indépendants, cependant, les colonnes de A sont deux à deux presque colinéaires. Le statisticien mesure cette notion par la proximité à 1 ou à -1 du coefficient de corrélation linéaire r. Le coefficient r entre A1 et A2 est de 0.985. Il est de 0.90 entre A3 et A4 . Cette colinéarité quasi parfaite confère à la solution du système linéaire une forte instabilité numérique vis à vis de petites perturbations des données. Cette notion est mesurée numériquement par le conditionnement d’une matrice inversible : soit k.k une norme matricielle, le conditionnement de A régulière associé à cette norme, est le nombre Propriétés : cond(A) = kAkkA−1 k. P1 : cond(A−1 ) = cond(A) et cond(αA) = cond(A). P2 : cond(A) ≥ 1 si le conditionnement est calculé pour une norme sous multiplicative. µ1 où µ1 et µn sont respectivement la plus grande et la plus petite µn des valeurs singulières de A. P3 : cond2 (A) = P4 : cond2 (A) = 1 ssi A = αQ où α est un scalaire et Q est une matrice unitaire. Dans les propriétés 3 et 4 on note condp le conditionnement associé à la p-norme matricielle. Remarque : on dira qu’une matrice est bien conditionnée si son conditionnement n’est pas beaucoup plus grand que 1. La propriété 4 montre que les matrices unitaires sont les mieux conditionnées possibles. En analyse numérique comme en statistique on utilisera le plus possible des systèmes de vecteurs orthonormés. Proposition : Soit A une matrice inversible. Soient x et x + ∆x les solutions des systèmes linéaires Ax = b On a et A(x + ∆x) = b + ∆b . k∆bk k∆xk ≤ cond(A) . kxk kbk 2 Proposition : Soit A une matrice inversible. Soient x et x+∆x les solutions des systèmes linéaires Ax = b On a 3.5 et (A + ∆A)(x + ∆x) = b . k∆xk k∆Ak ≤ cond(A) . kx + ∆xk kAk 2 Exercices Exercice 1 : Soit E = IR2 muni de la métrique euclidienne M dans la base canonique {e1 , e2 } 1 M= 4 " 5 √ 3 √ # 3 7 . Vérifier que M est une métrique euclidienne. Calculer les axes principaux de la sphère unité BM = {x ∈ E | x0 M x = 1} . Indications : Faire un changement de repère de telle faon que dans le nouveau repère {u1 , u2 }, l’équation de BM soit de la forme y12 y22 + = 1. a2 b 2 On poura aussi bien poser le problème sous forme d’un problème d’optimisation du carré de la norme euclidienne usuelle avec contrainte de type égalité. Exercice 2 : Montrer que la norme de Frobénius est sous multiplicative ainsi que toute p norme subordonnée. Chapter 4 Inverses Généralisés, Projecteurs M -Orthogonaux Lorsque les colonnes (lignes) d’une matrice carrée A sont linéairement indépendantes, l’inverse A−1 de A est définie par A−1 A = AA−1 = I. Si A est inversible, alors le système linéaire Ax = y dit de Cramer, admet une solution unique x b = A−1 y. (∗) Même lorsque A n’est pas carrée, le système (*) admet une solution pas forcément unique, si y appartient à l’espace vectoriel Im A engendré par les colonnes de A. La notion d’inverse généralisé d’une matrice rectangulaire permet de construire de telles solutions. On supposera maitenant que toutes les matrices sont réelles car résoudre un système linéaire sur C I revient à résoudre deux sytèmes linéaires sur IR associés aux parties réelles et imaginaires. 4.1 Inverses Généralisés 4.1.1 Définition et propriétés Soit A une matrice n × p, A− inverse généralisé de A, est une matrice p × n telle que Définition 1 : Définition 2 : x b = A− y est solution de Ax = y, ∀ y ∈ ImA. AA− A = A. Equivalence des définitions 67 Définition 2 ⇒ Définition 1 AA− A = A ⇒ AA− Ax = Ax AA− y = y , ∀ y = Ax (*) − A y est sol. de (*) Définition 1 ⇒ Définition 2 Soit y = Ai une colonne de A , y ∈ ImA AA− Ai = Ai , − AA A = A. 2 2 ∀i Construction et non unicité d’un inverse Soit A une matrice n × p telle que rang(A) = r. D’après la DVS 2, ∃P, Q orthogonales telles que P P 0 = P 0 P = In , QQ0 = Q0 Q = Ip et # " 1/2 0 Λr Q0 . A=P 0 0 " 1/2 # " 1/2 # " 1/2 # Λr 0 Λ 0 Λ 0 r r AXA = A ⇐⇒ P Q0 XP Q0 = P Q0 . 0 0 0 0 0 0 Multipliant à gauche et à droite par P 0 et Q respectivement, " 1/2 # " 1/2 # " 1/2 # Λr 0 Λ 0 Λ 0 r r Q0 XP = . 0 0 0 0 0 0 # " T T 11 12 −1/2 , AXA = A ⇔ T11 = Λr En décomposant par blocs, Q0 XP = T21 T22 T12 , T21 , T22 arbitraires. Alors, A− = Q " −1/2 Λr T21 T12 T22 # P0 , avec T12 , T21 , T22 arbitraires et on n’a pas l’unicité de l’inverse. 2 Quelques propriétés de A− P1 : rang(A− ) ≥ rang(A). P2 : Si A est carrée alors A− = A−1#. # " " 1/2inversible # " −1/2 1/2 I Λ T Λ 0 Λ T r r r r 12 12 P 0, P0 = P Q0 Q P3 : AA− = P 0 0 T21 T22 0 0 et AA− est idempotente car (AA− )2 = AA− . " # I 0 r P4 : A− A = Q Q0 et A− A est idempotente. 1/2 T21 Λr 0 P5 : rang(A) = rang(AA− ) = rang(A− A). P6 : A = A(A0 A)− A0 A. et En effet, d’après la définition 2, A0 A(A0 A)− A0 A = A0 A. On conclut en utilisant A0 AB = A0 AC ⇔ AB = AC. P7 : Le projecteur orthogonal sur Im A PA = A(A0 A)− A0 , matrice symétrique idempotente est la matrice de projection orthogonale sur Im A, invariante quel que soit l’inverse généralisé utilisé. Soit 1/2 A = U Λr V 0 = P ΛQ0 la DVS de A, alors PA = A(A0 A)− A0 = U U 0 = P " Ir 0 0 0 # P −1 . 2 PA2 = A(A0 A)− A0 A(A0 A)− A0 = A(A0 A)− A0 = PA , d’après P6. On sait que PA PA0 = A(A0 A)− A0 A[(A0 A)− ]0 A0 = PA0 d’après P6. En transposant PA = PA PA0 = PA0 et PA est symétrique. 0 Soient P1 = A(A0 A)− 1 A , P1 A = A, 0 et P2 = A(A0 A)− 2 A , P2 A = A. − 0 0 0 0 Donc P1 A = P2 A ⇔ A0 P1 = A0 P2 ⇔ A0 A(A0 A)− 1 A = A A(A A)2 A et PA est invariant quelque soit l’inverse généralisé utilisé car − 0 0 0 P1 = A(A0 A)− 1 A = A(A A)2 A = P2 . Enfin, PA A = A d’après P6, ce qui montre que PA est le projecteur sur Im A. De plus, un inverse généralisé de A0 A s’écrit 0 − (A A) = Q " Λ−1 T12 r 0 T12 T22 # Q0 ce qui implique PA = P " Ir 0 0 0 # P 0 = U U 0. 2 P8 : Soit A− un inverse généralisé de A. Une solution générale du système homogène Ax = 0 est : x = (I − A− A)u, pour u arbitraire. P9 : Soit A− un inverse généralisé de A et y ∈ Im A. Une solution générale du système Ax=y est : − x = A− y + (I − A− A)u, pour u arbitraire. P10 : Si A est un inverse généralisé de A, un inverse généralisé quelconque s’écrit G = A− + U − A− AU AA− , G = A− + V (I − AA− ) + (I − A− A)W , pour U , V , W arbitraires. 4.1.2 Inverse de Moore-Penrose A− n’étant pas unique, on construit une matrice inverse particulière appelée inverse de Moore-Penrose qui possède de “bonnes” propriétés. Soit A une matrice n × p, A+ , inverse de Moore-Penrose de A, est une matrice p × n vérifiant les propriétés suivantes D1 : AA+ A = A. D2 : A+ AA+ = A+ . D3 : (AA+ )0 = AA+ . D4 : (A+ A)0 = A+ A. Construction de l’inverse Soit A une matrice n × p telle que rang(A) = r. D’après la DVS 1, ∃U, V orthogonales 1/2 1/2 telles que A = U Λr V 0 où U 0 U = V 0 V = Ir et Λr −1/2 A+ = V Λ r = diag{µ1 , ..., µr } avec µi > 0. D’où U 0, vérifie les axiomes D1, D2, D3 et D4. Unicité de l’inverse + + + + + + 0 Soit A+ 1 et A2 , deux matrices inverses. D’après D2 et D3, A1 = A1 AA1 = A1 (AA1 ) , + + 0 0 + + 0 + 0 A+ 1 = A1 (A1 ) A = A1 (A1 ) (AA2 A) par D1 + + 0 0 + 0 + + 0 0 + + + 0 + + + + A+ 1 = A1 (A1 ) A (AA2 ) = A1 (A1 ) A AA2 = A1 (AA1 ) AA2 = A1 AA1 AA2 par D3 + + A+ 1 = A1 AA2 par D1. + + + 0 + De même, A+ 2 = A2 AA2 = (A2 A) A2 par D2 et D4 + + + + 0 + 0 0 + A+ 2 = (A2 AA1 A) A2 = (A1 A) (A2 A) A2 par D1 + + + + + A+ 2 = A1 AA2 AA2 = A1 AA2 par D4 et D2. L’inverse de Moore-Penrose est donc unique. 2 Propriétés de A+ P0 : Si A = kB alors A+ = k −1 B + avec k ∈ IR∗ . P1 : A+ = A−1 si A est inversible. P2 : (A+ )+ = A. P3 : (A0 )+ = (A+ )0 . P4 : Si A est une matrice symétrique et idempotente alors A+ = A. P5 : AA+ et A+ A matrices symétriques sont idempotentes. Ce sont les projecteurs or1/2 thogonaux respectivement sur Im A et sur Im A0 = {Ker A}⊥ . Soit A = U Λr V 0 la DVS maigre de A, alors AA+ = U U 0 et A+ A = V V 0 . P6 : A, A+ , AA+ et A+ A sont des matrices de même rang. P7 : A0 = A0 AA+ = A+ AA0 . P8 : A+ = A0 (A+ )0 A+ = A+ (A+ )0 A0 . P9 : (A0 A)+ = A+ (A+ )0 , (AA0 )+ = (A+ )0 A+ . P10 : A = A(A0 A)+ A0 A = AA0 (AA0 )+ A. P11 : A+ = (A0 A)+ A0 = A0 (AA0 )+ . P12 : Si A est une matrice de plein rang colonne, alors A+ = (A0 A)−1 A0 . P13 : Si A est une matrice de plein rang ligne, alors A+ = A0 (AA0 )−1 . P14 : A = 0 ⇐⇒ A+ = 0. P15 : AB = 0 ⇐⇒ B + A+ = 0. P16 : A+ B = 0 ⇐⇒ A0 B = 0. P17 : (A ⊗ B)+ = A+ ⊗ B + . P18 : Si y ∈ ImA, la solution de norme euclidienne minimum de Ax = y, est x̂ = A+ y. P19 : A0 AB = A0 C ⇐⇒ AB = AA+ C. P20 : Soient A n × p, B n × r, C p × r telles que rang(A) = rang(B) = rang(C) = r et A = BC 0 , alors A+ = (C + )0 B + = C(C 0 C)−1 (B 0 B)−1 B 0 . 4.2 Projecteurs M -orthogonaux On a vu au chapitre 2 que P est un projecteur si P 2 = P (idempotence) et un projecteur orthogonal au sens du produit scalaire usuel si P est de plus, symétrique. De plus, 1/2 la DVS maigre de A = U Λr V 0 permet de définir PA = U U 0 comme la matrice de projection orthogonale sur l’espace engendré par les colonnes de A. Ce projecteur s’écrit aussi PA = A(A0 A)− A0 = AA+ grce aux inverses généralisés. En statistique, différents du on est produit souvent scalaire amené usuel et à définir basés des sur produits des M est une matrice symétrique définie positive, différentes de l’identité < x, y >M = y 0 M x et kxk2M = x0 M x. scalaires métriques M, Soit l’espace vectoriel euclidien IE = IRm muni d’un M -produit scalaire et soit IE1 un s.e.v. de IE tel que IE = IE1 ⊕ IE1⊥ où IE1⊥ = {y ∈ IE | < y, x >M = 0 , x ∈ IE1 }. Pour tout x de IE la décomposition x = x1 + y1 , x1 ∈ IE1 , y1 ∈ IE1⊥ est unique. P est un projecteur M -orthogonal sur IE1 ssi P x = x1 (I − P )x = y1 . La notion de M -orthogonalité est liée à une notion de symétrie particulière, la M symétrie, plus générale que la symétrie usuelle des matrices. Un matrice A ∈ IRm×m est M -symétrique si M A = A0 M , c’est à dire si M A est symétrique (car M est symétrique). Pour α réel non nul, une matrice (α Im )-symétrique est symétrique au sens usuel. Propriété caractéristique d’un projecteur M -orthogonal Proposition : symétrique. Un projecteur P est un projecteur M -orthogonal ssi P est M - 2 Preuve : Soit P un projecteur (P 2 = P ) sur IE1 tel que ∀x, y ∈ IE, P x ∈ IE1 , (I − P )y ∈ IE1⊥ au sens de M . c’est à dire, x0 P 0 M (I − P )y = 0 ⇐⇒ P 0 M (I − P ) = 0 ⇐⇒ P 0 M = P 0 M P. Puique M est symétrique, P 0 M est aussi symétrique, P 0 M = M P . 4.2.1 2 Projecteur M -orthogonal sur Im A Proposition : Soit A ∈ IRm×n et M une métrique sur IRm , PA projecteur M -orthogonal sur l’espace Im A engendré par les colonnes de A, est la matrice m × m PA = A(A0 M A)− A0 M . Ce projecteur est unique quel que soit le choix de l’inverse généralisé. 2 Preuve : Soit x ∈ IRm décomposé en x = x1 + x2 sur Im A ⊕ {Im A}⊥ . Multipliant à gauche par A0 M , A0 M x = A0 M x1 + A0 M x2 = A0 M x1 = A0 M A β. Le système linéaire A0 M A β = A 0 M x admet des solutions puisque Im A0 M A = Im A0 M = Im A0 . Pour un choix d’inverse généralisé, β = (A0 M A)− A0 M x ce qui donne x1 = A β = A(A0 M A)− A0 M x PA = A(A0 M A)− A0 M . et Pour montrer l’unicité, décomposons M par Cholesky, M = T 0 T , et posons B = T A. T triangulaire supérieure est inversible et A = T −1 B. Alors PA = T −1 B(B 0 B)− B 0 T . La décomposition de Cholesky est unique et B(B 0 B)− B 0 ne dépend pas de l’inverse généralisé choisi (propriété P7 des inverses généralisés). 2 Conséquence : Dans la pratique, l’écriture du projecteur utilise l’inverse de MoorePenrose PA = A(A0 M A)+ A0 M et, lorsque A est de plein rang colonne PA = A(A0 M A)−1 A0 M . Cas particulier 1 : M = α I, où α est un réel positif. Pour tout α positif, le projecteur est le projecteur orthogonal usuel A(A 0 A)− A0 = A(A0 A)+ A0 = AA+ . Cas particulier 2 : Les colonnes de A sont M -orthogonales A0 M A = diag(kA1 k2M , . . . , kAn k2M ) . Dans ce cas ImA est de dimension n supposé plus petit que m. Le projecteur sur ImA se décompose en la somme des projecteurs sur chacun des vecteurs de la base A1 , . . . , An y Théorème des 3 perpendiculaires (n=2) y = PA1 y 1 y2 = PA2 y A2 y2 ^ y= y1+ y 2 y 1 A1 Im A Figure 6 : Théorème des 3 perpendiculaires de la géométrie Euclidienne (n = 2). PA = n X i=1 P Ai , où PAi = Ai Ai 0 M/kAi k2M . Si de plus la base est M -orthonormée, c’est à dire si A est M - orthogonale, alors PAi = Ai Ai 0 M . L’orthogonalité des colonnes de A donne kPA yk2M = Pn 2 i=1 kPAi ykM . P Lorsque y ∈ Im A, kyk2M = ni=1 kPAi yk2M , c’est le cas en particulier lorsque la matrice A est carrée (les colonnes de A forment une base de l’espace tout entier). Eléments propres du projecteur M -orthogonal sur Im A Proposition : La matrice PA = A(A0 M A)− A0 M est diagonalisable, ses valeurs propres sont 0 ou 1 et ses vecteurs propres sont M -orthonormés. De plus, trace(PA )= rang(A) = rang(PA ). 2 Preuve : PA est M -symétrique (M PA = PA0 M ). On ne peut pas appliquer directement les propriétés des matrices symétriques. Utilisons la décomposition M = M 1/2 M 1/2 (on peut aussi utiliser Cholesky) et posons B = M 1/2 A dont le rang est celui de A. La DVS de 1/2 B = U Λr V 0 = P ΛQ0 et la propriété P7 des inverses généralisés appliquée à B donnent " # I 0 r PA = M −1/2 P P −1 M 1/2 = M −1/2 U U 0 M 1/2 . 0 0 Les vecteurs propres de PA sont les colonnes de M −1/2 P qui sont M -orthonormées. 4.2.2 2 Un problème aux moindres carrés Si A est une matrice réelle m × n (m ≥ n) et y ∈ IRm , le système linéaire Ax = y n’a pas nécessairement de solution. Pour qu’il existe une solution il faut que y ∈ Im A. On peut toujours se poser le problème de chercher x b ∈ IRn tel que kAb x − yk2M = minn kAx − yk2M . (∗) x∈IR Ce problème sécrit comme la recherche de l’élément yb = Ab x de ImA le plus proche de y au sens de la norme k.kM . kb y − yk2M = min kv − yk2M . (∗) v∈ImA Proposition : Une solution du problème aux moindres carrés (*) est donnée par x b = (A0 M A)+ A0 M y. La solution est unique si rang(A) = n. Si la solution n’est pas unique, toute solution s’écrit x = x b + u avec u ∈ Ker (A0 M A) = Ker A. L’approximation yb = Ax = Ab x = PA y de y est unique, c’est la projection M -orthogonale de y sur Im A. 2 y ^ e=y-y 0 Im A ^ ^ y =A x Figure 7 : solution du problème aux moindres carrés, yb = PA y. Preuve : Notons ϕ(x) = kAx − yk2M la fonction à minimiser dite fonction objectif. C’est une fonction de IR n dans IR+ , c’est à dire une fonction numérique des n variables [x1 , . . . , xn ]0 = x. ϕ(x) = (Ax − y)0 M (Ax − y) = x0 A0 M Ax − 2y 0 M Ax + y 0 M y . Cette fonction est une fonction quadratique différentiable sur IR n . Les équations aux dérivées partielles dites équations normales fournissent les points stationnaires ∇ϕ(x) = 2A0 M Ax − 2A0 M y = 0IRn , où ∇ϕ(x) est le vecteur gradient de ϕ calculé en x. Une solution x du système précédent est un minimum local si la dérivée seconde, la matrice Hessien Hϕ(x), calculée en x est semi définie positive dans un voisinage de x. C’est bien le cas, Hϕ(x) = 2A0 M A est constante indépendante de x. C’est une matrice symétrique semi définie positive. Pour obtenir un minimum, il faut donc résoudre le système linéaire A0 M A x = A 0 M y . Si la matrice A0 M A n × n est inversible, c’est à dire si rang(A) = rang(A0 ) = n, alors il y a une seule solution x b = (A0 M A)−1 A0 M y. Dans le cas contraire, le système admet une infinité de solutions car le second membre appartient à Im A0 et puisque M est régulière Im A0 = Im A0 M A. Plutôt que d’écrire les solutions en utilisant un inverse généralisé (A0 M A)− on préfère construire une solution x b = (A0 M A)+ A0 M y. Soit x une autre solution des équations normales, alors A0 M A(x − x b) = 0IRn et x=x b + u, avec u ∈ Ker (A0 M A). Puisque M est symétrique définie positive, en décomposant M par Cholesky ou par M = (M 1/2 )2 , on montre aisément que Ker (A0 M A) = Ker A. Alors, qu’il y ait unicité ou non, l’approximation de y par yb x = PA y, yb = Ax = Ab où PA est le projecteur M -orthogonal sur Im A, est unique. Un façon de mesurer la qualité de l’approximation est fournie par l’indice R2 (y ; ImA) = kb y k2M kyk2M appelé “coefficient de détermination” entre y et ImA. On le note R 2 pour simplifier. C’est le carré du M -cosinus du M -angle formé par les vecteurs y et yb. R2 = 1 R2 = 0 ⇐⇒ ⇐⇒ y = yb yb = 0 ⇐⇒ ⇐⇒ y ∈ Im A. y ∈ {Im A}⊥ . 2 Propriétés du projeté yb = PA y = Ab x P1 e = y − yb ∈ {Im A}⊥ , c’est à dire < y − yb, u >M = 0 , ∀u ∈ Im A. P2 kyk2M = ky − ybk2M + kb y k2M . C’est le théorème de Pythagore. P3 kPA ykM ≤ kykM , est contractante. 4.3 ∀y ∈ IRm , ou 0 ≤ R2 ≤ 1. On dit que l’application linéaire PA Exercices Exercice 1 : Soit l’espace vectoriel euclidien (IRp , Ip ) et E le s.e.v. engendré par les deux vecteurs 1Ip = (1, . . . , 1)0 et (1, 2, . . . , p)0 . Calculer la matrice du projecteur orthogonal sur E. Exercice 2 : Soit E = {(y1 , . . . , y2n ) ∈ IR2n | yt = yt+2 , 1 ≤ t ≤ 2n − 2}. a. Montrer que E est un s.e.v. de IR2n . Quelle est sa dimension? b. On munit IR2n de la métrique identité. Soit x ∈ IR2n , calculer ŷ = arg min kx − yk22 . y∈E Chapter 5 Dérivation Matricielle 5.1 Introduction Dans de nombreux domaines d’application de l’analyse numérique et de la statistique comme l’économétrie, la chimiométrie, etc, on est amené à résoudre des problèmes du type min ϕ(X) X où la fonction à minimiser est une fonction numérique qui a pour argument une matrice X. Il est alors commode d’utiliser les outils de vectorisation pour tenter de résoudre le problème lorsque ϕ est différentiable. L’objectif de cette section n’est pas de proposer un cours de calcul différentiel ou d’optimisation mais seulement d’examiner le rôle joué par les opérateurs vec et ⊗, étudiés dans le chapitre 1, pour le calcul pratique des dérivées de fonctions matricielles lors de la résolution de certains problèmes d’optimisation. 5.2 5.2.1 Dérivation matricielle Matrices Jacobiennes Classification des fonctions et des variables Les fonctions scalaires ou numériques sont notées φ. Les fonctions vectorielles sont notées f . Les fonctions matricielles sont notées F . Les variables réelles sont notées ξ. Les variables vectorielles sont notées x. 77 Les variables matricielles sont notées X. Variables numériques vectorielles matricielles Fonctions numériques vectorielles matricielles φ(ξ) f (ξ) F (ξ) φ(x) f (x) F (x) φ(X) f (X) F (X) Exemples φ(ξ) = ξ 2 " f (ξ) = F (ξ) = " ξ ξ2 # cos(ξ) − sin(ξ) sin(ξ) cos(ξ) φ(x) = a0 x # φ(X) = a0 Xa f (x) = Ax f (X) = Xa F (x) = xx0 F (X) = X −1 . Matrices Jacobiennes de fonctions différentiables • Soit φ : x −→ φ(x), une fonction numérique différentiable de IR n dans IR. La dérivée Dφ(x) ou matrice Jacobienne s’écrit Dφ(x) = [D1 φ(x), . . . , Dn φ(x)] = c’est le vecteur ligne 1 × n tel que dφ = Dφ(x) dx = n X ∂φ(x) ∂x0 Di φ(x)dxi . i=1 Le gradient de φ en x est le vecteur colonne transposé de Dφ(x) ∇φ(x) = (Dφ(x))0 . • Soit f une fonction vectorielle différentiable de IRn dans IRm , c’est-à-dire φ1 (x) .. . x 7−→ f (x) = . φm (x) La dérivée de f où matrice Jacobienne est la matrice d’ordre m × n D1 φ1 (x) · · · Dn φ1 (x) ∂f (x) .. .. ... Df (x) = = . . ∂x0 D1 φm (x) · · · Dn φm (x) telle que df = Df (x)dx, où df = [dφ1 , . . . , dφm ]0 . • Soit F une fonction matricielle différentiable de IRn×q dans IRm×p , φ11 (X) · · · φ1p (X) .. .. ... X = [xij ] −→ F (X) = . . φm1 (X) · · · φmp (X) la matrice Jacobienne de F en X est la matrice d’ordre mp × nq D11 φ11 (X) · · · Dnq φ11 (X) .. .. ... . . D11 φm1 (X) · · · Dnq φm1 (X) .. .. ... DF (X) = . . D11 φ1p (X) · · · Dnq φ1p (X) .. .. ... . . D11 φmp (X) · · · Dnq φmp (X) où Dij φkl (X) = ∂φkl (X) . On la note ∂xij . ∂vec(F (X)) DF (X) = . ∂vec0 (X) Le théorème d’identification pour les fonctions matricielles différentiables donne ⇐⇒ d vec(F (X)) = A(X) d vec(X) A(X) = DF (X). Formulaire dx11 · · · dx1p . .. ... . X = [xij ] n × p, d X = .. . dxn1 · · · dxnp d C ste = 0. d (X + Y ) = d X + d Y. d (α X) = α d X. d (X 0 ) = (d X)0 . d (trace(X)) = trace(d X). d (vec(X)) = vec(d X). d (XY ) = (d X)Y + X(d Y ). d (X ⊗ Y ) = ((dX) ⊗ Y ) + (X ⊗ (d Y )). Tableau d’identification fonctions différentielles matrices ordre de D autres notations Jacobiennes φ(ξ) dφ = αdξ Dφ(ξ) = α 1×1 φ(x) dφ = a0 dx Dφ(x) = a0 1×n φ(X) dφ = vec0 (A)dvec(X) Dφ(X) = vec0 (A) 1 × nq m×1 = trace(A0 dX) f (ξ) df = adξ Df (ξ) = a f (x) df = Adx Df (x) = A f (X) df = Advec(X) Df (X) = A m × nq F (ξ) dvec(F ) = vec(A)dξ DF (ξ) = vec(A) mp × 1 F (x) dvec(F ) = Adx DF (x) = A mp × n F (X) dvec(F ) = Advec(X) DF (X) = A mp × nq ∇φ(x) = a ∂φ(X) =A n×q ∂X m×n d F (ξ) =A m×p dξ Remarque : Dans deux cas particuliers on réorganise les dérivées partielles q n X X ∂φ (X) ∂φ (X) 0 dxij = trace(( ) dX). ∗ Soit φ(X) avec X = [xij ] n × q, alors dφ = ∂xij ∂X i=1 j=1 ¸ · ∂φ (X) ∂φ (X) n × q. = ∂X ∂xij ∗ Soit F (ξ) avec F (ξ) = [Fij (ξ)] qui est d’ordre m × p · ¸ d F (ξ) d Fij (ξ) = . dξ dξ Marche à suivre (présentée dans le cas F (X)) : 1) On calcule d F (X). 2) On vectorise d F (X) c’est-à-dire, on calcule vec (d F (X)) = d vec (F (X)). 3) On met sous la forme d vec (F (X)) = A(X)d vec (X). 4) On identifie A(X) = DF (X). Dérivation des fonctions matricielles composées : Soit S un ouvert de IRn×q et supposons que F : S → IRm×p soit différentiable en C ∈ S. Soit T un ouvert de IRm×p tel que F (X) ∈ T pour tout X ∈ S et supposons que G : T → IRr×s soit différentiable en B = F (C). Alors, la fonction composée H : S → IR r×s définie par H(X) = G(F (X)) est différentiable en C et DH(C) = [DG(B)] [DF (C)]. La formule précédente s’appelle la règle de ”dérivation en chaine” pour les Jacobiens. 2 Exemple : Calcul du Jacobien de φ(X) = trace(AXB) avec A et B constantes. Première méthode : dφ(X) = dtrace(AXB) = trace(d(AXB)) = trace(A(dX)B) = trace(BA(dX)) = vec0 (A0 B 0 )dvec(X) ⇐⇒ Dφ(X) = vec0 (A0 B 0 ) ou en réorganisant les dérivées partielles selon la position des éléments de X ∂trace(AXB) = A0 B 0 . ∂X 2 Deuxième méthode : Soit F (X) = AXB, alors dF (X) = A(dX)B vec(dF (X)) = dvec(F (X)) = (B 0 ⊗ A)vec(dX). Donc DF (X) = B 0 ⊗ A. Soit φ(Y ) = trace(Y ), alors dφ(Y ) = trace(dY ) = trace(IdY ) = vec 0 (I)vec(dY ). Donc Dtrace(Y ) = vec0 (I). Bien sûr, on peut réorganiser les dérivées partielles selon la position des éléments de Y , et ∂ trace(Y ) =I. ∂Y Mais ici, il faut user du Jacobien pour utiliser la dérivation de fonctions composées Dφ(F (X)) = vec0 (I)(B 0 ⊗ A) = [(B ⊗ A0 )vec(I)]0 = vec0 (A0 IB 0 ) = vec0 (A0 B 0 ). 5.2.2 Hessien de fonctions numériques Soit φ : IRn −→ IR une fonction deux fois différentiable, alors 2 Hφ(x) = [Dij φ(x)] est une matrice symétrique d’ordre n appelée le Hessien de φ en x. 2 Théorème d’identification d2 φ = d (d φ) = (dx2 )0 B(dx1 ) ⇐⇒ Hφ(x) = 12 (B + B 0 ). Tableau d’identification F onctions φ(ξ) Différentielles d’ordre 2 Hessien d2 φ = β(dξ1 )(dξ2 ) φ(x) d2 φ = (dx2 )0 Bdx1 φ(X) d2 φ = (dvec(X 2 ))0 B dvec(X 1 ) Ordre 1×1 Hφ(ξ) = β Hφ(x) = 21 (B + B 0 ) . n×n Hφ(X) = 21 (B + B 0 ) nq × nq Proposition : Soit φ(X) une fonction numérique de X, matrice n × q, alors d2 φ = trace(B(dX2 )0 C(dX1 )) ⇔ Hφ(X) = 12 (B 0 ⊗ C + B ⊗ C 0 ) d2 φ = trace(B(dX2 )C(dX1 )) ⇔ Hφ(X) = 12 Kqn (B 0 ⊗ C + C 0 ⊗ B). 2 Preuve On sait que trace(ABCD) = vec0 (D0 )(C 0 ⊗ A)vec(B) = vec0 (D)(A ⊗ C 0 )vec(B 0 ). Donc trace(B(dX2 )0 C(dX1 )) = vec0 (dX1 )(B ⊗ C 0 )vec(dX2 ) Hφ(X) = 21 (B ⊗ C 0 + B 0 ⊗ C). trace(BdX2 CdX1 ) = vec0 (dX1 )(B ⊗ C 0 )vec(dX2 )0 = vec0 (dX1 )(B ⊗ C 0 )Knq vec(dX2 ) C)). 5.3 2 Hφ(X) = 12 ((B ⊗ C 0 )Knq + Kqn (B 0 ⊗ C)) = 12 (Kqn (C 0 ⊗ B) + Kqn (B 0 ⊗ Extremums de fonctions numériques Les problèmes d’optimisation considérés dans cette section sont des problèmes de minimisation d’une fonction numérique réelle φ appelée fonction objectif. Pour maximiser une fonction φ on se ramène à la minimisation de −φ. Soient φ : S ⊂ IRn −→ IR et x un point de S. On dit que φ présente en x un minimum local ou relatif, s’il existe une boule ouverte B(x) centrée en x telle que φ(x) ≥ φ(x) pour tout x ∈ B(x) ∩ S, un minimum strict local, s’il existe une boule ouverte B(x) centrée en x telle que φ(x) > φ(x) pour tout x ∈ B(x) ∩ S, x 6= x, un minimum global ou absolu, si un minimum strict global, si φ(x) ≥ φ(x) pour tout x ∈ S, φ(x) > φ(x) pour tout x ∈ S, x 6= x. Par abus de langage on dira que le point x lui même est un minimum local, local strict... Transformations strictement croissantes Théorème 1 : Soit S ⊂ IRn et φ une fonction de S dans IR. Notons T = φ(Ω). Soit ϕ une application strictement croissante de T dans IR. Alors φ présente un minimum absolu (resp. relatif) en x si et seulement si ψ = ϕ ◦ φ présente un minimum absolu (resp. relatif) en x. Preuve : 2 Soit ϕ une fonction croissante sur T et x un minimum local ou global pour φ, c’est à dire φ(x) ≥ φ(x) sur un certain ensemble O. Alors ψ(x) = ϕ(φ(x)) ≥ ϕ(φ(x)) = ψ(x). Dans l’autre sens, supposons que x soit un minimum local ou global pour ψ, ψ(x) ≥ ψ(x) pour tout x dans un certain ensemble O. Supposons qu’il existe x0 de O tel que φ(x0 ) < φ(x). La stricte croissance de ϕ implique ψ(x0 ) = ϕ(φ(x0 )) < ϕ(φ(x)) = ψ(x) ce qui est impossible. Donc φ(x) ≥ φ(x) pour tout x ∈ O. 2 Applications : A1 : Minimisation d’une norme Euclidienne : La fonction k.k2 n’est pas différentiable en 0, aussi pour récupérer la différentiabilité de la fonction objec- tif, on minimise ψ = k.k22 plutôt que φ = k.k2 (on choisit donc ϕ(ξ) = ξ 2 qui est strictement croissante sur [0, +∞[). A2 : Maximum de vraisemblance : Maximiser φ(x) = exp(−η(x)) est équivalent à maximiser ln(φ(x)) ce qui est encore équivalent à minimiser η(x). 5.3.1 Problèmes d’extremums libres Conditions nécessaires de minimum local Théorème 2 : Soit Ω un ouvert de IRn et φ une fonction de Ω dans IR différentiable sur Ω. Si φ admet un minimum local en un point x de Ω, alors Dφ(x) = 01×n Remarques: ou ∇φ(x) = 0n×1 . (*) 2 R1 : Importance de l’hypothèse ”Ω est un ouvert”. Contre-exemple évident : minimiser la fonction de la variable réelle φ(ξ) = ξ 2 sur l’intervalle fermé [ 1, 2 ] admet pour solution ξˆ = 1 en lequel Dφ(1) = 2 6= 0. R2 : Toute solution x du système (*) des n équations aux dérivées par- tielles ou équations normales ou encore équations d’Euler, est appelée point stationnaire ou point critique. Déterminer la nature d’un point critique, c’est étudier s’il s’agit d’un minimum, d’un maximum ou d’un point-selle. Le théorème 3 fournit des conditions suffisantes dans le cas où la fonction obectif est 2 fois différentiable. R3 : Lorsque la fonction objectif φ(X) a un argument matriciel Xn×p , la condition nécessaire d’extremum local en X de l’ouvert Ω, s’écrit ∂φ(X) = 0n×p . Dφ(X) = 01×np ou encore ∂X (*) Conditions suffisantes d’optimalité (convexité) locale Théorème 3 : Si φ est 2 fois différentiable sur Ω ouvert de IRn , un point critique x de Ω est un minimum local si une des conditions suivantes est réalisée (1) Il existe une boule B(x) centrée en x ∈ Ω telle que le Hessien Hφ(x) est une matrice semi définie positive pour tout x ∈ B(x) ∩ Ω. (2) Le Hessien Hφ(x) est une matrice définie positive, c’est à dire, les mineurs principaux du déterminant de Hφ(x) sont positifs. Dans ce cas le minimum est strict. 2 Remarque : Les conditions suffisantes précédentes s’étendent au cas φ(X) d’une fonction de matrice, par le calcul de Hφ(X). 5.3.2 Problèmes d’extremums liés Soit la fonction ojectif φ : Ω ouvert ⊂ IRn → IR et soit la fonction vectorielle g = [g1 , . . . , gm ]0 : Ω → IRm permettant de définir l’ensemble S des contraintes S = {x ∈ IRn | x ∈ Ω ; g1 (x) = 0 , . . . , gm (x) = 0}. Le problème est maintenant le suivant : minimiser φ(x) sous la contrainte : x ∈ S La façon la plus efficace pour résoudre ce type de problème d’extremums liés par les m contraintes de type égalité, est en général d’utiliser les multiplicateurs de Lagrange. Conditions nécessaires d’optimalité locale Théorème 4 (Lagrange) : Hypothèses sur les contraintes Soient g : Ω ouvert de IRn → IRm (n > m) et x ∈ Ω tels que H1 : g(x) = 0, H2 : g est différentiable sur une boule ouverte B(x), H3 : la matrice Jacobienne Dg(x) m × n est continue en x, H4 : Dg(x) est de rang m. Hypothèses sur la fonction objectif Soit φ : Ω → IR telle que H5 : φ est différentiable en x, H6 : φ(x) ≥ φ(x) pour tout x de B(x) vérifiant g(x) = 0. Conclusion Il existe un (unique dû à H4) vecteur l = [λ1 , . . . , λm ]0 appelé vecteur des multiplicateurs de Lagrange, tel que Dφ(x) + l 0 Dg(x) = 01×n , ou en transposant Remarques : ∇φ(x) + Pm i=1 λi ∇gi (x) = 0n×1 . (**) (**) 2 R1 : Méthode des multiplicateurs de Lagrange : Dans la recherhe d’optimums locaux, on construit d’abord la fonction de Lagrange L : Ω × IR m → IR L(x, l) = φ(x) + l 0 g(x) = φ(x) + Pm i=1 λi gi (x). Les conditions nécessaires d’optimalité locale pour le problème d’extremums libres min Ω × IRm L(x, l) s’écrivent ∇x L(x, l) = ∇φ(x) + Pm i=1 λi ∇gi (x) = 0 (**) ∇l L(x, l) = g(x) = 0. Elles fournissent comme solutions les point critiques (x, l). Parmi eux se trouvent les optimums locaux de φ relatifs à S. Il faut enfin sélectionner parmi les points critiques ceux qui sont des minimums. R2 : Cas où φ est fonction d’une matrice Xn×p . Soient φ : Ω (ouvert de IRn×p ) → IR et G : Ω → IRm×q , le problème d’optimisation devient min φ(X) G(X) = 0m×q Par vectorisation, ce problème est un problème d’optimisation à mq contraintes. On introduit Λ = [λij ], matrice m×q des multiplicateurs de Lagrange, dans l’expression de la fonction de Lagrange L(X, Λ) definie par L(X, Λ) = φ(X) + vec0 (Λ)vec(G(X)) = φ(X) + trace(Λ0 G(X)). Il faut déterminer les points critiques (X, Λ) de la fonction L(X, Λ) et enfin étudier la nature ces points. Conditions suffisantes de minimum local sous contraintes Théorème 5 : Supposons que L(x, l) soit 2 fois différentiable au point critique (x, l) et que la matrice Jacobienne m × n Dg(x) soit de rang m. Si de plus u0 Hx L(x, l) u > 0 où Hx L(x, l) = Hφ(x) + contrainte g(x) = 0. 2 Pm i=1 pour tout u ∈ IRn tel que Dg(x) u = 0m×1 , λi Hgi (x), alors φ présente un minimum strict en x sous la 5.4 Exercices : Exercice 1 : Fonctions numériques d’un vecteur Etablir le tableau d’identification suivant ∇ φ(x) φ(x) d φ(x) D φ(x) a0 x a0 dx a0 x0 Ax x0 (A + A0 )dx x0 (A + A0 ) (A + A0 )x φ1 (x) φ2 (x) φ2 dφ1 −φ1 dφ2 φ22 (φ2 Dφ1 − φ1 Dφ2 )/φ22 φ2 (x)∇φ1 (x)−φ1 (x)∇φ2 (x) φ22 (x) a Exercice 2 : Fonctions numériques d’une matrice a) Montrer que ∂trace(X) =I; ∂X ∂trace(X 0 X) = 2X ; ∂X ∂trace(X 2 ) = 2X 0 . ∂X b) Etablir le tableau d’identification suivant φ(X) trace(AX) d φ(X) D φ(X) ∂φ(X)/∂X trace(AdX) 0 vec (A ) A0 vec0 (B 0 XA0 + BXA) B 0 XA0 + BXA trace(XAX 0 B) trace[(AX 0 B + A0 X 0 B 0 )dX] trace(XAXB) trace[(AXB + BXA)dX] 0 vec0 (B 0 X 0 A0 + A0 X 0 B 0 ) B 0 X 0 A0 + A0 X 0 B 0 Exercice 3 : Fonctions vectorielles Calculer les matrices Jacobiennes de f (x) = Ax, f (x) = a(x0 x), f (X) = Xa. Exercice 4 : Fonctions matricielles : Etablir le tableau d’identification suivant F (X) d F (X) D F (X) X dX Inq X0 dX 0 XX 0 X 0X 0 (dX)X + X(dX) Knq 0 (In2 + Knn )(X ⊗ In ) (dX)0 X + X 0 (dX) (Iq2 + Kqq )(Iq ⊗ X 0 ) où X est une matrice n × q. Exercice 5 : Calculer les matrices Hessiennes des fonctions scalaires suivantes : φ(x) = x0 Ax, φ(X) = trace(X 0 AX), φ(X) = trace(AXBX 0 ), φ(X) = trace(X 2 ). Exercice 6 : Résoudre le problème d’optimum libre suivant min kY − AXk2F X où les matrices Y m × n et A m × p sont données. Exercice 10 : Soient A une matrice symétrique définie positive n×n et B une matrice m × n. Alors, trace(X 0 AX) ≥ trace[(BA−1 B 0 )−1 ] pout toute matrice X n × m satisfaisant BX = Im . Le minimum étant obtenu pour b = A−1 B 0 (BA−1 B 0 )−1 . X Indication : exprimer le problème sous forme d’un problème d’optimisation avec contraintes de type égalité et le résoudre. Chapter 6 Le paysage mathématique et statistique de l’Analyse Factorielle de Données : la géométrie Euclidienne L’analyse factorielle de données a pris son essort dans le deuxième tiers du XXième siècle avec l’apparition des ordinateurs et le devoir de traiter des données dont la taille n’a fait que crotre avec les progrès de l’informatique. Traiter ou analyser les données, c’est d’abord essayer de détecter la présence d’éventuelles erreurs de saisie ou de données atypiques, ensuite tenter de visualiser certaines structures communes difficiles voire impossibles à mettre a priori en évidence à cause de la taille des données. La diversité de nature des variables mesurées est à l’origine de la création des différentes méthodes d’analyse factorielle. Historiquement, l’Analyse en Composantes Principales (ACP), dite classique ou usuelle, est la première apparue (Hotelling, 1901, Spearman, 1904) pour traiter des mesures sur des variables quantitatives. Cependant d’autres méthodes d’analyse factorielle portant sur des variables qualitatives ou booléennes, par exemple les méthodes d’analyse d’une enquête, procèdent du même principe : celui de la réduction de la dimension, c’est à dire, la mise en évidence de variables latentes ou Composantes Principales, en petit nombre, qui résument les variables mesurées, au sens où ces nouvelles variables synthétiques sont des combinaisons linéaires des variables originelles dont les poids sont appelés les facteurs principaux. On emploie aussi de ce fait, la dénomination d’analyse factorielle linéaire. L’objectif de ce chapitre est de définir vocabulaire et notations aptes à mettre en évidence les analogies entre la géométrie Euclidienne et la statistique 89 6.1 Le triplet (T, M, D) des données Un jeu de données est constitué par un triplet (T, M, D) défini par les trois éléments suivants. • T = [Tij ] ∈ IRn×p est la matrice des données brutes exprimant les n mesures de p variables, x1 , . . . , xp , par exemple quantitatives. Le tableau T pourra aussi être obtenu à partir des résultats d’une enquête; on verra plus loin dans ce cas, la nature des données. • M , p × p, est une métrique Euclidienne sur l’espace IRp des lignes de T . La ième ligne de T, notée Ti , sera considérée comme l’expression dans la base canonique de l’espace (IRp , M ), de l’échantillon du ième individu. • D, métrique sur l’espace Euclidien IRn des colonnes de T , est une matrice, n × n, qui sera toujours diagonale D = diag(p1 , . . . , pn ) . La jème colonne de T , notée T j , sera considérée comme l’expression dans la base canonique de (IRn , D), de l’échantillon de la jème variable, xj . Les espaces Euclidiens (IRn , D) et (IRp , M ) considérés sont respectivement les espaces des individus et des variables. Ces espaces sont soit des espaces vectoriels soit des espaces affines selon que l’on parlera de vecteurs ou de points, un point origine ayant alors été choisi au préalable. Par abus de langage, on confondra parfois lorsqu’il n’y aura pas d’ambiguté, un point-vecteur ligne (respectivement un point-vecteur colonne) avec la matrice ligne (colonne) de son expression dans la base canonique. D’autre part, on notera r le rang de T , r ≤ min(n, p). L’espace des variables échantillonnées, Im T , et l’espace des individus échantillonnés, Im T 0 , sont de même dimension r dim Im T = dim Im T 0 = r. 6.2 Statistique et géométrie sur (IRn, D), espace des variables 6.2.1 Le simplexe des poids statistiques et la droite des constantes Dans les applications, les poids pi sont les poids statistiques des individus. La matrice diagonale , . . . , pn ) D = diag(p1P trace(D) = i pi = 1 p > 0 pour i = 1 . . . n, i est appelée la matrice des poids statistiques affectés aux n individus. p 3 1 | n 1 p 1 2 1 p 1 Figure 8 : simplexe des poids statistiques (n = 3). On appelle simplexe des poids l’ensemble D = {(p1 , . . . , pn ) ∈ IRn | pi ≥ 0, i = 1, . . . , n et P i pi = 1}. Remarquer que si un poids est nul, la matrice D n’est que semi-définie positive et ne peut plus être considérée comme une métrique sur IRn . Le cas le plus usité en statistique est celui des poids uniformément répartis ∀i pi = 1 , n et D= 1 In . n Dans ce cas la projection D-orthogonale concide avec la projection au sens usuel. P Soit 1In = i ei (n) = [1, . . . , 1]0 . Le vecteur 1In est In -orthogonal au plan vectoriel 1I0n x = x1 + . . . + xn = 0 qui est associé au plan affine x1 + . . . + xn = 1 contenant D. De plus, ce vecteur est de D-norme égale à 1, en effet trace(D) = 1I0n D1In = k1In k2D = 1. On appelle “droite des constantes” la droite vectorielle engendrée par 1In . P1 Le projecteur D-orthogonal sur 1In est égal à P 1n = 1In (1I0n D1In )−1 1I0n D = C’est une matrice n × n de rang égal à 1. 1In 1I0n D 2 p1 p1 = . p1 p2 ... p2 ... . ... p2 ... pn pn . . pn Dans le cas usuel de poids statistiques égaux, P1n = n−1 1In 1In 0 . 6.2.2 Moyenne et centrage vus comme une projection Soit t = [t1 , . . . , tn ]0 un n-échantillon d’une variable statistique munie des poids statistiques définis par la diagonale de D. La moyenne de t, notée t, est définie par le D-produit scalaire entre t et le vecteur 1I n . En effet, t= P i pi ti = 1I0n Dt =< 1In , t >D . La projection du vecteur t sur 1In a pour mesure algébrique t. En effet, P1n t = 1In 1In 0 Dt = 1In t = t1In . P2 Centrer une variable t au sens de D, on dira D-centrer t, c’est construire t1 − t t2 − t x= ... tn − t = t − t1In = (In − P1n )u = P1⊥ t n c’est à dire projeter t sur le sev de IRn D-orthogonal à 1In . 2 Preuve : x = t − t 1In = t − 1In t = t − P1n t. 2 t 2 1 2 t t1 t2 t t 2 1 1| t 1| t1 1 x t t t 1 1| Figure 9 : La moyenne vue comme une projection sur la droite des constantes (n = 2). 6.2.3 Variance et écart-type La moyenne t définit un “paramètre de position” pour la variable t à partir de la géométrie euclidienne basée sur la métrique diagonale des poids statistiques. Caractériser la position d’une variable statistique n’a de sens que si on lui associe un autre paramètre statistique caractérisant la “dispersion autour de la moyenne” appellé l’écart-type ou la déviation standard. Ce paramètre est défini à partir de la variance de t. La variance de t, on dit aussi la D-variance ou encore la variance géométrique ou empirique, notée var(t), est définie par var(t) = n X i=1 pi (ti − t)2 = var(x). L’écart-type, noté σ(t), est défini par σ(t) = p var(t) = σ(x). Il s’exprime dans la même unité de mesure que celle des observations, t1 , . . . , tn , de la variable t. P3 La variance de t est le carré de la D-norme de la variable centrée x, var(t) = kxk2D . P 2 2 Formule développée: var(t) = kt − t1In k2D = ktk2D − t = i pi t2i − t . p L’écart-type est la norme de x, σ(t) = var(t) = kxkD = σ(x). 2 P Preuve : Par définition, var(t) = i pi (ti − t)2 = x0 Dx = kxk2D . 2 Le vecteur x/kxkD est appelé la variable déduite de t par centrage et réduction (au sens de D), ont dit aussi variable réduite ou standardisée. Bien sûr, la moyenne d’une variable réduite est nulle, sa variance et son écart-type sont égaux à 1. 6.2.4 Proximité entre deux variables, covariance et corrélation linéaire Soient deux n-échatillons t = [t1 , . . . , tn )]0 et u = [u1 , . . . , un )]0 munis des mêmes poids statistiques de la diagonale de D. Notons x et y les deux variables centrées respectivement associées à t et u. On mesure la proximité entre t et u par le coefficient de corrélation linéaire r(t, u) dont la définition découle de celle de la covariance entre ces deux variables. La covariance netre t et u est définie par cov(t, u) = n X i=1 pi (ti − t)(ui − u) = n X pi xi yi = cov(x, y). i=1 De façon évidente, cov(t, u) = cov(u, t). La variance d’une variable peut être définie à partir de la covariance, var(t) = cov(t, t), ce qui est la conséquence de l’interprétation géométrique suivante P4 La covariance entre deux variables t et u est le D-produit scalaire entre les variables centrées, cov(t, u) = x0 Dy =< x, y >D = cov(x, y). P Formule développée: cov(t, u) =< t, u >D −tu = i pi ti ui − tu. Preuve : Evidente. 2 2 Le coefficient de corrélation linéaire entre t et u, noté r(t, u), est défini par r(t, u) == cov(t, u) = r(x, y). σ(t)σ(u) P5 Le coefficient de corrélation linéaire s’interprète dans IR n comme le cosinus du Dangle formé par les vecteurs D-centrés. r(t, u) = < x, y >D cov(t, u) = , σ(t)σ(u) kxkD kykD Le théorème de Cauchy-Schwarz donne −1 ≤ r(t, u) ≤ 1. L’égalité n’a lieu que si x et y sont colinéaires. 2 On dit que t et u sont non corrélés si r(t, u) = 0 c’est à dire si les variables centrées x et y sont D-orthogonales. P6 Droite de régression linéaire et coefficient de corrélation La propriété P5 de r(t, u) fournit l’interprétation géométrique de la proximité entre t et u dans l’espace (IRn , D) qui est l’espace Euclidien des variables. Dans ce cas bivarié, on peut visualiser l’interprétation de r(t, u) dans l’espace (IR 2 , I2 ) des individus. Le nuage N des n points-individus Mi de coordonnées (ti , ui ) dans la base canonique {e~1 , e~2 }, et de poids respectifs pi est représenté Figure 10. On appelle droite de régression, la droite ∆ passant par G, individu moyen de coordonnées (t, u), et d’équation y = âx dans le repère (x, y). Le coefficient angulaire, â, de ∆ est solution du prolème de la minimisation de la fonction ϕ de IR dans IR définie par ϕ(a) = n X i=1 pi (yi − axi )2 = ky − axk2D . y u ( M i , pi ) ui yi N yi - a x a xi y=ax i u xi G x e2 O e1 t ti t Figure 10: Ajustement linéaire d’un nuage de points bivariés. Cette fonction mesure la somme pondérée des carrés des écarts verticaux entre les individus et leurs homologues sur une droite quelconque passant par G et de pente a. En quelque sorte, ϕ(a) mesure l’écart vertical entre le nuage N des points pesants et une telle droite. Le minimum de ϕ est atteint pourla valeur â qui définit, dans le repère (t, u), la droite de régression ou d’ajustement linéaire ∆. u = â t + b̂ cov(t, u) â = Equation de ∆ : var(t) u = â t + b̂ La valeur minimale de ϕ s’exprime en fonction de r(t, u) ϕ(â) = var(u)[1 − r 2 (t, u)], ce qui permet de mesurer grâce à r(t, u) l’ajustabilité du nuage par une droite. r = - 0.8 r = 0.9 r=0 r=0 Figure 11: Ajustabilité d’un nuage bivarié suivant les valeurs de r. Remarquer que lorsque t et u sont non corrélés, cov(t, u) = 0, ∆ a pour équation u = u. 6.2.5 Définitions et notations pour la statistique multivariée On dispose d’un échantillon de mesures de p variables toutes mesurées sur les mêmes n individus. Ces mesures sont stockées dans la matrice T des données brutes. On suppose que les n individus sont munis des poids statistiques formés par la diagonale de D. On appelle individu moyen le vecteur ligne, noté T , formé des moyennes de p variables (colonnes de T ). T = [t1 , . . . , tp ] = 1I0n DT. La matrice X obtenue par centrage des variables est définie par X = (In − 1In 1I0n D)T . Elle s’interprète du point de vue des individus (lignes) comme la différence entre chaque individu et l’individu moyen. On est amené à étudier les liens de proximité entre les variables prises deux à deux : La matrice des covariances géométriques est définie par V = [Vij = cov(ti , tj )] = X 0 DX, où ti est la ième colonne de T . Cette matrice carrée d’ordre p, est symétrique semi définie positive, rang(V ) = rang(T ). Elle est définie positive si rang(T ) = p. Remarquer que Vii = var(ti ). Standardiser les p variables, c’est à dire D-centrer réduire les variables sur l’échantillon, revient à construire Z = XQ où Q = diag(σ1−1 , . . . , σp−1 ). La matrice des corrélations entre les variables est R = [Rij = r(ti , tj )] = Z 0 DZ = Q0 V Q. 2 Remarquer que la diagonale de R est formée de 1 car r(t, t) = 1. P7 Supposons Y n × 1 et X = [X 1 | . . . |X p ] n × p deux matrices D-centrées. Soit Yb = PX Y la projection D-orthogonale de Y sur ImX. Puisque X est D-centrée, Yb est de moyenne nulle et kYb k2D = var(Yb ). Le coefficient de détermination entre Y et ImX défini dans la section 4.2.2, s’écrit R2 (Y, ImX) = De plus, R2 (Y, ImX) = var(Yb ) . var(Y ) Y 0 DYb cov(Y, Yb ) = = r2 (Y, Yb ). 0 Y DY var(Y ) Preuve : C’est la conséquence de la D-symétrie du projecteur PX , c’est à dire DPX = (PX )0 D. Alors, kYb k2 = Y 0 (PX )0 DPX Y = Y 0 DPX PX Y = Y 0 DYb . 2 D On peut montrer, voir exercice, que R2 (Y, ImX) = max r2 (Y, W ) , W ∈ImX et que le maximum est réalisé pour W = PX Y . On utilise aussi p R(Y, ImX) = R2 (Y, ImX) = r(Y, Yb ) qui s’appelle le coefficient de corrélation multiple entre Y et ImX. 6.3 Exercices Exercice 1 : Régression linéaire simple de u sur t. Dans le contexte de la propriété P6 de la section 6.2.4, la régression linéaire de u sur t est présentée sur les variables centrées y et x respectivement, cet exercice la présente maintenant sur les variables initiales. On dispose de deux n-échantillons, t variable explicative et u variable réponse, dont les observations sont munies des poids statistiques {pi | i = 1, . . . , n} stockés dans la diagonale de D. L’objectif est de minimiser la fonction φ de IR2 dans IR+ définie par φ(a, b) = n X i=1 Posons X = [1In t], matrice n × 2, et β = pi (ui − ati − b)2 . " b # vecteur colonne des inconnues a et b. a 2 0 0 −1 0 1) Montrer que " φ(β) # = ku − XβkD . Calculer X DX, (X DX) et X Du. b̂ 2) Soit β̂ = solution du problème. Calculer β̂ en utilisant les résultats de la â section 4.2.2. Vérifier que l’on retrouve les résultats de P6. Quelle est l’interprétation géométrique de û = X β̂ dans (IRn , D)? 3) Eprimer φ(β̂) en fonction de r(t, u). Exercice 2 : Dans le contexte de la propriété P7 de la section 6.2.5, on se propose de montrer que R2 (Y, ImX) = max r2 (Y, W ) , W ∈ImX et que le maximum est réalisé pour W = PX Y . 1) Quelle est l’interprétation géométrique de cette propriété? 2) Calculer le vecteur gradient de l’application ϕ de IRp dans IR v −→ ϕ(v) = (Y 0 DXv)2 . kY k2D (v 0 X 0 DXv) Soit ∇ϕ(v) ce vecteur. Montrer que l’équation ∇ϕ(v) = 0 s’écrit PX PY W = ϕ(v)W . En déduire que le vecteur W = Xv optimal est vecteur propre de PX PY associé à la plus grande valeur propre. 3) Si Ŷ = PX Y , montrer que PX PY admet une seule valeur propre non nulle égale à Y 0 DŶ = R2 (Y, ImX) . 2 kY kD Vérifiez enfin que W = Ŷ est le vecteur propre associé à cette valeur propre. Chapter 7 Généralisation de la Décomposition en Valeurs Singulières. Analyse en Composantes Principales du triplet (X, M, D) Toutes les méthodes de l’Analyse Factorielle de l’Analyse de Données peuvent être présentées dans un cadre commun : celui de l’extension du théorème de la Décomposition en Valeurs Singulières (DVS) au cadre d’espaces Euclidiens plus généraux. La présentation synthétique qui va suivre, est basée sur l’introduction de métriques sur les espaces Euclidiens envisagés. Le choix d’une métrique permettra d’adapter cette technique générale, appelée ACP du triplet (X, M, D), au problème posé par le type de données à traiter. Historiquement, la première méthode apparue pour analyser un tableau issu de mesures sur variables quantitatives, est l’Analyse en Composantes Principales (ACP) dite usuelle. Elle correspond au triplet • X matrice, n × p, des variables centrées (éventuellement réduites), • M = Ip , métrique usuelle sur l’espace des lignes, • D = n−1 In , métrique sur l’espace des variables, formée par la matrice diagonale des poids égaux pour les individus. On verra que d’autres méthodes d’analyse des données nécessitent des choix différents, en particulier lorsque les données sont issues du dépouillement d’une enquête statistique. 101 Toutes ces méthodes rentrent dans le cadre de la décomposition en valeurs singulières du triplet (X, M, D). 7.1 Décomposition en Valeurs Singulières du triplet 0 , Dans la DVS usuelle examinée au chapitre 2, les matrices X 0 Xp×p et XXn×n symétriques, jouent un rôle fondamental. Dans la DVS du triplet (X, M, D), ce rôle va être attribué repectivement aux matrices X 0 DXMp×p et XM X 0 Dn×n . Ces matrices ne sont pas symétriques, sauf dans le cas où M et D sont de la forme kI comme dans la DVS usuelle et dans le cas de l’ACP usuelle. Elles sont respectivement M et D-symétriques. Il est d’autre part nécessaire de s’assurer que les valeurs propres de telles matrices sont nonnégatives et que les vecteurs propres sont orthogonaux au sens de la métrique concernée. C’est l’objectif du Lemme suivant. 7.1.1 Lemme La matrice X 0 DXM (resp. XM X 0 D) est M -symétrique (resp. D-symétrique), ses r valeurs propres non-nulles sont réeelles positives et ses vecteurs propres forment une base M -orthonormée de Im X 0 (resp. D-orthonormée de ImX). 2 Preuve : Une matrice carrée A est M -symétrique si et seulement si M A = A0 M , ce qui est le cas pour X 0 DXM à cause de la symétrie de M et de D. La matrice M étant symétrique définie-positive, soit M = M 1/2 M 1/2 sa décomposition par la DVS (M 1/2 est symétrique définie positive). On peut aussi utiliser Cholesky : M = T T 0 , où T est triangulaire inférieure à diagonale positive. Notons Λr = diag(λ1 , . . . , λr ) et V = [V 1 , . . . , V r ] les matrices des valeurs propres non-nulles et des vecteurs proppres associés pour X 0 DXM de rang r X 0 DXM V = V Λr X 0 DXM 1/2 (M 1/2 V ) = V Λr M 1/2 X 0 DXM 1/2 (M 1/2 V ) = (M 1/2 V )Λr On pose Y = M 1/2 V ou V = M −1/2 Y . La matrice M 1/2 X 0 DXM 1/2 est symétrique semidéfinie positive de rang r, ses r valeurs propres non-nulles sont réelles positives et ses r vecteurs propres {Y j } sont orthonormés au sens usuel (métrique identité). Il en résulte Ir = Y 0 Y = V 0 (M 1/2 )0 M 1/2 V = V 0 M V. 0 0 Puisque V = X 0 DXM V Λ−1 r , Im V ⊂ Im X et comme rang(V ) = rang(X ) = r, il en résulte que les deux espaces vectoriels coincident, Im V = Im X 0 . 2 j Remarque : La construction effective des vecteurs propres {V } de X 0 DXM passe d’abord par le calcul des vecteurs propres {Y j } de M 1/2 X 0 DXM 1/2 puis par le calcul de V j = M −1/2 Y j . 7.1.2 La DVS du triplet (X, M, D) Théorème : Soient X ∈ IRn×p de rang r, M métrique sur IRp et D métrique sur IRn . Il existe • Un×r , D-orthonormée (U 0 DU = Ir ), dont les colonnes sont les vecteurs propres associés aux valeurs propres {λ1 , . . . , λr } non-nulles de XM X 0 D, • Vp×r , M -orthonormée (V 0 M V = Ir ), dont les colonnes sont les vecteurs propres associés aux mêmes valeurs propres {λ1 , . . . , λr } non-nulles de X 0 DXM , 1/2 • Λr 1/2 1/2 1/2 = diag(λ1 , . . . , λr ) matrice diagonale des valeurs singulières {λi } du triplet (X, M, D), telles que X s’écrive X= 0 U Λ1/2 r V = r p X λi U i V i0 . 2 i=1 Les valeurs singulières sont toujours classées par ordre décroissant 1/2 λ1 ≥ . . . ≥ λ1/2 >0 r ce qui induit un classement sur les colonnes de U = [U 1 , . . . , U r ] et de V = [V 1 , . . . , V r ]. Preuve : La décomposition spectrale de X 0 DXM s’écrit d’après le Lemme précédent ( X 0 DXM V = V Λr V 0 M V = Ir . Posons U = XM V Λr−1/2 , appelée première formule de transition qui permet d’exprimer U en fonction de V . Propriétés de U (∗) • Les colonnes de U sont vecteurs propres de la matrice XM X 0 D qui à les mêmes valeurs propres non-nulles que X 0 DXM : −1/2 XM X 0 DU = XM X 0 DXM V Λr −1/2 = XM V Λr Λr −1/2 = XM V Λr Λr = U Λr . • Les colonnes de U forment une base D-orthonormée de Im X (preuve immédiate). 1/2 0 Montrons que X = U Λr V 0 . Pour cela, notons ΠM V = V V M , le projecteur M -orthogonal sur Im V = Im X 0 . 1/2 −1/2 U Λr V 0 = XM V Λr 1/2 0 0 M 0 0 0 0 Λr V 0 = XM V V 0 = (ΠM V X ) = (ΠX 0 X ) = (X ) = X. 2 Deuxième formule de transition : De façon duale, on peut aussi démontrer le théorème de la DVS de X en partant de la décomposition spectrale de la matrice XM X 0 D. On construit la deuxième formule de transition qui exprime V en fonction de U V = X 0 DU Λ−1/2 . r (∗∗) Corollaire : décomposition des matrices V = X 0 DX et W = XM X 0 V = V Λr V 0 = r X λi V i V i0 et W = U Λr U 0 = λi U i U i0 . i=1 i=1 7.1.3 r X Relation avec la DVS usuelle La DVS usuelle de X est la DVS du triplet (X, M = Ip , D = In ) . La DVS usuelle déjà étudiée au chapitre 2, correspond au cadre Euclidien naturel pour les espaces des lignes et des colonnes du tableau X. Relation entre la DVS de (X, M, D) et de (Z = D 1/2 XM 1/2 , Ip , In ) La DVS du triplet (X, M, D) est équivalente à la DVS usuelle de la matrice Z = D1/2 XM 1/2 1/2 au sens suivant : toutes deux ont les mêmes valeurs singulières; si Z = Uz Λr Vz0 et 1/2 X = Ux Λr Vx0 sont les deux décompositions, alors Ux = D−1/2 Uz et Vx = M −1/2 Vz . Preuve : Exercice 1. 2 2 7.1.4 Projecteurs orthogonaux associés à la DVS Les colonnes de V = [V 1 , . . . , V r ] forment une base M -orthonormée de Im X 0 , celles de U = [U 1 , . . . , U r ] forment une base D-orthonormée de Im X. Il en résulte l’expression des projecteurs orthogonaux sur ces espaces vectoriels de dimension r. 1/2 Soit X = U Λr V 0 la DVS de (X, M, D). Le projecteur M -orthogonal sur Im X 0 et le projecteur D-orthogonal sur Im X sont donnés par : ΠM X0 0 −1 0 0 = V (V M V ) V M = V V M = r X i i0 V V M= r X U i U i0 D = i=1 ΠM Vi , i=1 i=1 0 −1 0 0 ΠD X = U (U DU ) U D = U U D = r X r X ΠD Ui . i=1 Notons que lorsqu’on dispose d’une base orthogonale d’un sous-espace vectoriel, le projecteur sur cet espace se décompose en la somme des projecteurs sur chacun des espaces de dimension 1 engendrés par les vecteurs de base. 7.1.5 Théorème d’approximation d’Eckart-Young 1/2 Théorème : Soient X ∈ IRn×p de rang r, X = U Λr V 0 la DVS de (X, M, D) et k un entier, k ≤ r. On note Uk = [U 1 , . . . , U k ] et Vk = [V 1 , . . . , V k ] les matrices extraites de 1/2 U et de V , et Λk 1/2 1/2 = diag(λ1 , . . . , λk ) la matrice diagonale des k premières valeurs singulières. bk de Ek = {Xk ∈ IRn×p | rang(Xk ) = k}, le plus proche de X On cherche un élément X au sens de la norme k.kM ⊗D . Alors, bk k2M ⊗D = min kX − Xk k2M ⊗D = kX − X Xk ∈Ek r X λi , i=k+1 l’optimum étant atteint par la DVS incomplète de rang k, bk = Uk Λ1/2 Vk0 . 2 X k Les valeurs propres (carrés des valeurs singulières) étant classées par ordre décroissant, bk est la somme des plus petites le carré de l’erreur lors de l’approximation de X par X valeurs propres restantes. Preuve : Admettons le résultat dans le cadre Euclidien usuel, voir Exercice 2 : pour toute matrice Z, n × p, de rang r, élément du triplet (Z, Ip , In ) min kZ − Zk ∈Ek Zk k2F = kZ − Zbk k2F = r X λi . i=k+1 L’optimum est atteint par la DVS incomplète de rang k de Z 1/2 Zbk = [Uz ]k Λk [Vz ]k 0 . Posons Z = D1/2 XM 1/2 et notons que Ek est l’ensemble des matrices Xk = D−1/2 Zk M −1/2 pour toute matrice Zk de rang k. De façon évidente kZ − Zk k2F = trace((Z − Zk )0 (Z − Zk )) = trace((X − Xk )0 D(X − Xk )M ) = kX − Xk k2M ⊗D . L’équivalence de la DVS des triplets (X, M, D) et (Z, Ip , In ) au sens de la Section 6.2.3, implique que la solution bk = D−1/2 Zbk M −1/2 = D−1/2 [Uz ]k Λ1/2 [Vz ]k 0 M −1/2 = [Ux ]k Λ1/2 [Vx ]k 0 , X k k est fournie par la DVS incomplète de rang k de X. 7.2 2 Analyse en Composantes Principales d’ordre k du triplet (X, M, D) L’Analyse en Composantes Principales, en bref ACP, usuelle associée au choix M = Ip et D = n−1 In , est une méthode d’analyse exploratoire de données multivariées dont l’un des objectifs est la vision plane à deux dimensions des points lignes et des points colonnes (photos obtenues par projection sur des plans dits factoriels). Le fait d’envisager des métriques plus générales introduit une distorsion dans la représentation des distances, voir les remarques de la section 2.6. et la section 6.2.3. Cependant, dans la plupart des méthodes factorielles, outre D, la métrique M est diagonale. Dans ce cas, pour une vision naturelle d’un point il suffit de multiplier chaque coordonnée i par la racine carrée du ième élément diagonal de la métrique. Cela est cependant inutile dans l’ACP usuelle où tous les points lignes ont le même poids ainsi que les points colonnes. Dans l’Analyse Factorielle des Correspondances (AFC) simple ou multiple, des transformations sur les données sont effectuées pour que les distances Euclidiennes associées au triplet correspondent à la distance du χ2 entre vecteurs des fréquences conditionnelles des données d’une enquête. La vision naturelle des points n’est pas, dans ce cas, l’objectif à atteindre. Les plans factoriels de projection ne sont autres que ceux formés par les couples de vecteurs des bases orthonormées de la DVS du triplet : (V i , V j ) pour voir les points lignes, ou (U i , U j ) pour voir les poins colonnes. Reste à décider quels sont les k meilleurs plans factoriels, c’est à dire ceux pour qui les photos obtenues seront porteuses d’informations interprétables : l’ACP d’ordre k est définie à partir de la DVS en éliminant la part de bruit incluse dans les données et mesurée grâce au théorème d’Eckart-Young. 7.2.1 Définitions La matrice X est supposée D-centrée en colonnes à partir d’une matrice T des données brutes X = (In − 1In 1I0n D)T . Le point origine de l’espace des points lignes de X s’interprète comme le point ligne moyen, 1I0n DT , du tableau T . La matrice des covariances entre les variables est V = X 0 DX, celle des produits scalaires entre les individus W = XM X 0 . A ces matrices sont associés les opérateurs aux valeurs propres-vecteurs propres de la DVS du triplet. Opérateurs et inertie du triplet (X, M, D) • Opérateur des covariances : VM = X 0 DXM • Opérateur des produits scalaires entre individus : WD = XM X 0 D • Inertie totale du triplet : kXk2M ⊗D = trace(XM X 0 D) = trace(X 0 DXM ) Expression tirée de la terminologie de la mécanique du point matériel, l’“inertie totale” des n points lignes Mi pesant chacun pi n X i=1 pi kXi k2M = n X i=1 pi Xi M Xi0 = trace(XM X 0 D) = kXk2M ⊗D , est la mesure du moment d’inertie du nuage des n points par rapport à l’origine des coordonnées, ici le point ligne moyen. Cette expression mesure l’éloignement de l’origine des points Mi par les carrés de leurs distances pondérés par les poids statistiques. Dans le cas particulier M = Ip , l’inertie totale trouve une interprétation duale par rapPp Pn Pp j j 2 port aux colonnes de X. En effet, trace(X 0 DX) = j=1 j=1 Vj = i=1 pi (Xi ) = Pp j=1 Pn i=1 j pi (Tij − T )2 est aussi la variance totale c’est à dire la somme des variances des p variables. Si de plus les variables sont D-centrées réduites l’inertie totale est dans ce cas, égale à p. Proposition : kXk2M ⊗D = trace(Λr ) = r X λi . i=1 Preuve : utiliser la DVS du triplet et l’orthogonalité des matrices U et V . 2 ACP d’ordre k du triplet (X, M, D) La matrice X étant supposée de rang r et D-centrée en colonne, on appelle ACP d’ordre k, k ≤ r, du triplet (X, M, D), la DVS incomplète de rang k bk = Uk Λ1/2 Vk0 , X k telle qu’elle est définie dans le théorème d’Eckart-Young. Les deux formules de transition s’écrivent à l’ordre k −1/2 Uk = XM Vk Λk (∗) et −1/2 Vk = X 0 DUk Λk (∗∗) . Proposition : L’approximation de rang k de X a pour colonnes (pour lignes) les projections des colonnes (des lignes) de X sur l’espace vectoriel Im Uk (sur Im Vk ) b k = ΠD X Uk X et 0 b k 0 = ΠM X Vk X . 2 Preuve : Faisons la preuve pour les colonnes. La deuxième formule de transition (**) donne 0 ΠD Uk X = Uk Uk DX = Uk (X 0 DUk )0 1/2 = Uk Λk Vk0 . 2 Au delà de la définition précédente, l’ACP est une méthode d’analyse et d’exploration des données basée sur l’examen des points lignes et des points colonnes projetés sur des espaces de dimensions 1 ou 2 obtenus à partir des bases orthonormées {V1 , . . . , Vk } et {U1 , . . . , Uk } des deux espaces respectifs Im Xk 0 et Im Xk . Grâce aux posibilités actuelles des logiciels informatiques concernant la vision à trois dimensions, il est parfois intéressant de visionner les projections dans les repères {V1 , V2 , , V3 } et {U1 , U2 , U3 }. Cas particulier : l’ACP usuelle réduite d’ordre k L’ACP usuelle réduite, ou ACP normée, est l’ACP d’ordre k du triplet (X, M = Ip , D = 1 In ) n où X est formée par les n mesures de p variables quantitatives D-centrées réduites. Dans ce cas la matrice des covariances V = 1 X 0X n est la matrice des corrélations entre les p variables. Parfois, lorsque les variables sont “homogènes”, c’est à dire ont des variances du même ordre de grandeur, il n’est pas nécessaire de réduire les variables. On dit alors que l’ACP est centrée. Remarques : R1 Les deux opérateurs VM = n1 X 0 X et WD = n1 XX 0 jouent un rôle symétrique. On retrouvera cette symétrie des opérateurs dans le cas où, comme D pour les lignes, M est une matrice diagonale des poids statistiques des points colonnes. L’Analyse Factorielle des Correspondances est l’exemple type de ce choix. R2 Dans l’espace des variables, la D-orthogonalité est identique à l’orthogonalité usuelle < x, y >D = n1 y 0 x = 0 ⇐⇒ y 0 x =< x, y >= 0, 1 n ΠD X = ΠX In = n1 X( n1 X 0 X)+ X 0 = X(X 0 X)+ X 0 = ΠIXn . bk et X R3 Puisque M = Ip et D = n−1 In , le carré de l’erreur d’approximation entre X s’écrit r X 1 2 0 2 b b b b kX − Xk kM ⊗D = trace[(X − Xk ) D(X − Xk )M ] = kX − Xk kF = λi . n i=k+1 Critère global du choix de l’ordre k Le théorème d’Eckart-Young conduit à un critère de la qualité globale de l’ACP. Le pourcentage de l’Inertie Reconstituée à l’ordre k est défini par Pk b k k2 kX λi M ⊗D %IR(k) = × 100 = Pri=1 × 100 . 2 kXkM ⊗D i=1 λi Une cassure dans la croissance du diagramme des valeurs {%IR(k) | k = 1, . . . , r} permet de déterminer l’ordre k à retenir. Ce diagramme porte souvent le nom de diagramme de l’inertie cumulée. La règle empirique précédente fournit, lorsque cela est possible, le nombre k de vecteurs de base (vecteurs propres) à retenir. Le choix de k devra permettre de retenir des vecteurs qui pris deux à deux, fourniront de “bons” plans de projection, c’est à dire des représentations à deux dimensions des points lignes ou colonnes facilement interprétables. %IC 100 85 1 2 k r i Figure 12 : diagramme des pourcentages d’inertie cumulée ou reconstituée. Axes factoriels et principaux, composantes principales et facteurs principaux • Axes factoriels On note Vk = [V 1 , . . . , V k ] et Uk = [U 1 , . . . , U k ] les matrices dont les colonnes sont les k vecteurs de base retenus : {V 1 , . . . , V k } vecteurs M -orthonormés dans l’espace des points lignes (Vk0 M Vk = Ik ) et {U 1 , . . . , U k } vecteurs D-orthonormés dans l’espace des points colonnes (Uk0 DUk = Ik ). Un plan factoriel est un espace vectoriel de dimension 2 formé par l’un des couples d’axes factoriels (V i , V j ) ou (U i , U j ). On va définir des vecteurs colinéaires à ces vecteurs et de même sens mais de norme non plus égale à 1 mais égale à la valeur singulière correspondante. Ces vecteurs vont jouer un rôle capital dans le calcul des projections sur les plans factoriels des points lignes, respectivement des points colonnes. • Axes principaux Les k axes principaux {Aj ∈ (IRp , M ) | j = 1, . . . , k} définis par Aj = sont M -orthogonaux et de M -longueur √ √ λj V j λj . La matrice Ak = [A1 , . . . , Ak ], p × k, est telle que 1/2 Ak = V k Λk A0k M Ak = Λk . et La deuxième formule de transition (**) devient Ak = X 0 DUk . (∗∗)0 La DVS du triplet permet d’autre part de décomposer la matrice des covariances V en V = X 0 DX = V Λr V 0 = Ar A0r . • Composantes principales Les k composantes principales {C j ∈ (IRn , D) | j = 1, . . . , k} définies par Cj = sont D-orthogonales et de D-longueur √ √ λj U j λj . La matrice Ck = [C 1 , . . . , C k ], n × k, est telle que 1/2 Ck = U k Λk et Ck0 DCk = Λk . La première formule de transition (*) devient Ck = XM Vk . (∗)0 La DVS du triplet permet aussi de décomposer la matrice des produits scalaires entre individus W en W = XM X 0 = U Λr U 0 = Cr Cr0 . • Facteurs principaux On appelle matrice des facteurs principaux la matrice p × k Fk = [F 1 , . . . , F k ] = M Vk , de telle sorte que (*)’ s’écrire (∗)0 Ck = XFk . Remarquer que dans le cas particulier M = Ip , Fk = Vk et une composante principale P s’écrit C j = XV j = pi=1 X i Vij . Interprétation des composantes principales par rapport aux variables-colonnes : Une composante principale j j C = XF = p X X i Fij i=1 s’écrit comme une combinaison linéaire des p colonnes de X. Pour cette raison, une composante principale peut être considérée comme l’expression dans la base canonique, d’une “variable latente”, notée C j , c’est à dire une variable synthétique qui résume linéairement les variables naturelles x1 , . . . , xp . Le scalaire Fij est le facteur principal qui mesure l’influence de la variable xi sur la variable C j . Propriétés statistiques des composantes principales-variables latentes – P1 : C j est D-centrée. Le fait que les variables soient D-centrées implique que (*)’ a pour conséquence que les variables latentes{C j } sont D-centrées : 1I0n DC j = 1I0n DXF j = 0. p – P2 : L’écart type de la variable latente C j est λj . Cela résulte de P1 kC j k2D j0 j = C DC = n X pi (Cij )2 = var(C j ) = λj . i=1 – P3 : Les variables latentes sont deux à deux non corrélées cov(C i , C j ) = C j 0 DC i = 0, si i 6= j. 7.2.2 Projections des points lignes La matrice X étant D-centrée en colonnes, le nuage N des n points lignes {M1 , . . . , Mn } appartient à l’espace affine Im X 0 , sous-espace de dimension r de l’espace (IRp , M ), et d’origine le point ligne moyen O calculé sur les données brutes. Pour visionner la position relative des points lignes par rapport à ce point de référence, on pourrait bien sûr, projeter les points du nuage N sur des axes ou des plans de la base canonique. Mais ces représentations ne sont pas forcément les plus simples à interpréter. On va voir pourquoi il est préférable d’utiliser des projections sur des espaces de dimension 1 ou 2 définis à partir des axes factoriels V j . Projection des points lignes sur l’ axe factoriel V j −→ Le vecteur OMl dont l’expression dans la base canonique de (IRp , M ) est le transposé de la ligne Xl , noté Xl0 , se projette orthogonalement au sens de M sur l’axe V j selon 0 j j0 0 j j 0 j j ΠM V j Xl = V V M Xl = V (Xl M V ) = V Cl . −→ Le scalaire Clj est la mesure algébrique de la projection du vecteur OMl sur le vecteur unitaire V j . Interprétation d’une composante principale C j par rapport aux individus-lignes : Le nuage N des points lignes se projette sur V j selon les coordonnées du vecteur C j , voir Figure 13. D’après la propiété P2 d’une composante C j , l’inertie par rapport au point moyen O, du nuage des points projetés munis des poids pi , est égale à λj . En effet, les n points projetés sur V i étant donnés par les colonnes de la matrice V i C i0 , l’inertie par rapport à O de ces n points s’exprime par la quantité trace(V j C j 0 DC j V j 0 M ) = trace(V j 0 M V j C j 0 DC j ) = C j 0 DC j = λj . N M k M1 j V j j C2 Cn Axe factoriel j j C1 individu moyen : O C j k Mn M 2 Figure 13 : Nuage N des points lignes de (IRp , M ) et projections sur l’axe V j . N’oublions pas que les valeurs propres sont rangées par ordre décroissant λ1 ≥ . . . ≥ λk . On peut maintenant énoncer le principe de l’Analyse Factorielle. Principe de l’Analyse Factorielle : Si on admet que le meilleur “cliché” unidimensionnel est fourni par un axe sur lequel, en projection, le nuage des points lignes est d’inertie maximale, alors, l’axe factoriel V 1 est le meilleur axe; ensuite, V 2 est meilleur second, orthogonal au premier... Preuve : Montrons que, parmi tous les vecteurs V ∈ (IRp , M ) de longueur 1, 0 0 M 0 V 1 = arg max trace((ΠM V X ) M (ΠV X )D) . 2 kV kM =1 La fonction objectif à maximiser qui est l’inertie des points lignes projetés sur V , s’écrit 0 0 M 0 0 0 0 ϕ(V ) = trace((ΠM V X ) M (ΠV X )D) = trace(XM V V M X D) = V M VM V . Ecrivons les équations aux dérivées partielles pour la fonction de Lagrange L(V, λ) = ϕ(V ) + λ(1 − V 0 M V ), ∇V L(V, λ) = ∇V ϕ(V ) − λ∇V (V 0 M V ) = 2M VM V − 2λM V = 0 . ce qui donne λ = ϕ(V ) et VM V = λV . D’où la conclusion que le maximum est donné par V 1 vecteur propre de VM associé à la plus grande valeur propre λ1 . Montrons seulement que V 2 maximise ϕ(V ) sous les contraintes kV k2M = 1 et V 10 M V = 0. La restriction de la fonction objectif à l’espace vectoriel V 1⊥ = {V ∈ IRp | V 10 M V = 0}, peut s’écrire ϕV 1⊥ (V ) = V 0 M (V − λ1 V 1 V 10 )M V . Sur V 1⊥ , la méthode de Lagrange associée à la contrainte kV k2M = 1, conduit à λ = ϕV 1⊥ (V ) et à (V − λ1 V 1 V 10 )M V = λV . Le maximum est donc réalisé par le couple (V 2 , λ2 ), λ2 plus grande valeur propre de (V − λ1 V 1 V 10 )M , étant la deuxième valeur propre de VM ... 2 Remarque : Si tous les points lignes ont le même poids, le principe de l’analyse factorielle est un principe géométrique d’allongement maximum des points projetés sur chacun des axes. Projection des points lignes sur un plan factoriel (V i , V j ) Notons [V i , V j ] la matrice p×2 extraite des colonnes de Vk , les propriétés des axes factoriels impliquent que [V i , V j ]0 M [V i , V j ] = I2 . La matrice de la projection M -orthogonale sur le plan factoriel Im [V i , V j ], notée ΠM [V i ,V j ] , se décompose en la somme des projecteurs sur chacun des axes M M ΠM [V i ,V j ] = ΠV i + ΠV j . −→ Le vecteur OMl se projette sur le plan factoriel, appelé (i, j) pour simplifier, selon le −→ vecteur Oml dont les coordonnées dans le repère (V i , V j ) sont données par (Cli , Clj ) j j i i 0 ΠM [V i ,V j ] Xl = V Cl + V Cl . C j j mk Ck j V m2 i individu moyen O V i i Ck C mn m1 Figure 14 : Projection du nuage des individus sur le plan factoriel (V i , V j ). La matrice p × n des projections du nuage des n points sur le plan (i, j) est donnée par 0 i i0 j j0 ΠM [V i ,V j ] X = V C + V C . La M -orthonormalité des {V i } permet de montrer que l’inertie par rapport à O des points lignes projetés sur le plan (i, j) 0 M 0 0 i0 i j0 j trace[(ΠM [V i ,V j ] X )D(Π[V i ,V j ] X ) M ] = C DC + C DC = λi + λj , est la somme des inerties des points projetés sur chacun des axes. Pour faire une bonne photo de points lignes, il faut trouver un plan sur lequel en projection, le nuage des points est d’inertie maximale : alors le plan factoriel (1,2) est le meilleur plan possible; on peut ensuite tirer les photos (1, 3), (2, 3)... Aides à l’interprétation des points lignes Contributions absolues On désire quantifier la contribution de chaque individu-ligne l à l’expression de l’inertie du nuage projeté sur l’axe factoriel V j . On a vu que l’inertie autour du point ligne moyen est caractérisée par la variance de C j , c’est à dire C j 0 DC j = λj ; alors n X pl j 2 (C ) . 1= λj l l=1 La contribution absolue de l’individu l à la dispersion du nuage projeté sur l’axe j est CT Ajl = pl j 2 (C ) . λj l Si tous les individus ont le même poids statistique pl = 1/n alors la dispersion ne dépend que du carré de la coordonnée de la projection de l’individu sur l’axe. Dans ce cas, les individus à forte CT A sont ceux les plus éloignés de l’individu moyen. Ce n’est plus forcément le cas si les poids statistiques ne sont pas identiques. Contributions relatives Tous les points d’une photo uni ou bi-dimensionnelle ne sont pas visibles avec la même précision. En conséquence, on ne pourra interpréter la position relative de deux points projetés ml1 et ml2 que si elle reflète bien la position des points Ml1 et Ml2 de l’espace (IRp , M ). De façon plus pratique, on mesurera la proximité relative entre ml et Ml par le −→ −→ carré du cosinus du M -angle entre les vecteurs Oml et OMl −→ k Oml k2M 2 cos θl = −→ k OMl k2M −→ −→ −→ k Oml k2M k Oml k2M k Oml k2M = = = Pr j 2. Xl M Xl0 Wll (C l) j=1 On dira que l’individu l est bien représenté par ml si cette expression, appelée aussi contribution relative de l’axe ou du plan factoriel à la représentation de l’individu l, est voisine de 1, mal représentée si elle est voisine de 0. i i j Notons mil et mi,j l les projections de Ml sur l’axe V respectivement sur le plan (V , V ). i j L’orthonormalité de V et V implique −→ −→ i Omi,j l =Oml −→ + Omjl dont l’expression dans la base canonique est V i Cli + V j Clj . Il vient kV i Cli + V j Clj k2M = kV i k2M (Cli )2 + kV j k2M (Clj )2 = (Cli )2 + (Clj )2 . On obbtient ainsi les contributions relatives de l’axe i et du plan (i, j) à l’individu l (Cli )2 + (Clj )2 (C i )2 2 i 2 j CT Rli = cos2 θli = Pr l j et CT Rli,j = cos2 θli,j = P r j 2 = cos θl + cos θl . 2 j=1 (Cl ) j=1 (Cl ) De façon évidente, la somme des contributions relatives pour un même individu l P est égale à 1, ri=1 cos2 θli = 1 . 7.2.3 Projections des vecteurs colonnes Dans l’ACP usuelle, les colonnes sont plutôt considérées comme l’expression de vecteursvariables, à la différence des lignes considérées comme des points. La proximité de deux variables est basée sur l’examen du coeficient de corrélation qui d’un point de vue géométrique, est le cosinus du D-angle entre ces deux vecteurs. Il sera toujours possible, dans l’ACP généralisée de considérer les points extrémités de ces vecteurs et appelés points colonnes. Projections sur les axes et plans factoriels De façon duale à celle des lignes, les matrices n×n de projection D-orthogonale sur un axe factoriel Im U i = Im C i et sur un plan factoriel Im [U i , U j ] = Im [C i , C j ] sont données par i i0 ΠD Ui = U U D et D D ΠD [U i ,U j ] = ΠU i + ΠU j . La mesure algébrique de la projection d’un vecteur-variable xl sur un vecteur de base U i est égale à Ail . En effet, la formule de transition (**)’ donne l i i ΠD U i X = U Al et l i i j j ΠD [U i ,U j ] X = U Al + U Al . j A j U i Ak U X i A i k j Ak Figure 15 : Projection d’une variable xk sur le plan factoriel (U i , U j ). L’axe principal Ai est le vecteur des coordonnées des projections des p points colonnes sur l’axe factoriel U i . Coefficient de corrélation entre la variable latente C j et une variable xi Une composante C j s’interprète comme le vecteur des coordonnées des projections du nuage des indvidus sur l’axe factoriel V j mais aussi comme l’expression d’une variable latente C j dans la base canonique de (IRn , D). Afin de pouvoir donner un nom à cette variable synthétique il est nécessaire d’examiner quelles sont les variables qui lui sont statistiquement voisines. L’examen des coefficients de corrélation entre C j et les variables xi , i = 1, . . . , p, r(C j , xi ) = X i0 DC j X i0 DXM V j λj Vij Aji cov(C j , xi ) p p p = = = = , σ(C j )σ(xi ) kX i kD λj kX i kD λj kX i kD λj kX i kD permet de sélectionner celles qui sont fortement corrélées avec la variable latente. Cas de l’ACP usuelle réduite Dans le cas particulier, σ(xi ) = kX i kD = 1, et r(C j , xi ) = Aji . Les points colonnes sont situés sur la sphère unité de (IRn , D). Ils se projettent sur un plan factoriel (U i , U j ) à l’intérieur du cercle trigonométrique appelé ”cercle des corrélations”. Dans ce cas, la projection d’un point colonne sur un axe factoriel est la corrélation de la variable avec la variable latente correspondante. C j A j j U 2 j mk Ck j X A2 j V m2 i i individu moyen O V i i Ck C A1 i i A2 A j X i U 3 A1 X 1 mn m1 Figure 16 : Visualisation duale des plans factoriels (i, j) pour les individus et les variables dans l’ACP usuelle normée. Cercle des corrélations. La Figure 16, présente les deux représentations duales individus-variables sur les plans factoriels (i, j). Un plan factoriel est de bonne qualité globale si λi + λj est grand. Les points lignes bien représentés dans ce plan sont assez nombreux; on peut interpréter leur position relative au point moyen, en expliquant les variables latentes grâce aux variables naturelles bien représentées (voir paragraphe suivant). Dans ce cas particulier de l’ACP usuelle, une variable est bien représentée dans un plan factoriel si son point colonne associé est proche du cercle des corrélations. Sur la Figure 5, X 1 et X 2 sont bien représentées, alors que X 3 ne l’est pas. L’individu numéro n a une valeur au dessus de la moyenne pour la variable x1 , inférieure à la moyenne pour x2 ... Aides à l’interprétation des variables Contributions absolues : cas où M est diagonale Les ACP les plus courantes concernent le cas où M = diag(m1 , . . . , mp ) : M = Ip (ACP usuelle) ou bien M est la matrice des poids statistiques des colonnes (Analyses Factorielles des Correspondances simples et multiples). On a vu que la projection d’une variable x i sur l’axe U j à pour mesure algébrique Aji , voir Figure 4. Dans ce cas particulier, le nuage des points colonnes pondérés {(xi , mi )} projetés sur l’axe j, a pour inertie Aj 0 M Aj = λj ; ce qui donne 1= p X mi i=1 λj (Aji )2 . On appelle contribution absolue de la variable xi à l’inertie sur l’axe j, l’expression CT Aji = mi j 2 (A ) . λj i Comme pour les CTA des points lignes, la CTA d’un point colonne prend en compte non seulement l’éloignement de l’origine (Aji )2 mais aussi le poids mi d’un point colonne. Contributions relatives On dira qu’un point colonne xk est bien représenté sur l’axe U i ou sur le plan (U i , U j ) si le carré du cosinus du D-angle entre le vecteur projeté et le vecteur colonne initial, est voisin de 1. On appelle contribution relative de l’axe ou du plan factoriel à la variable X k CT Rki = cos 2 θki (Aik )2 (Aik )2 + (Ajk )2 i,j 2 i,j = Pr = cos2 θki +cos2 θkj . j 2 ou CT Rk = cos θk = Pr j 2 j=1 (Ak ) j=1 (Ak ) En effet, la contribution relative de l’axe i à la variable k est le carré du coefficient de corrélation entre xk et C i . La contribution relative du plan factoriel (i, j) à la variable k est le coefficient de détermination R2 entre xk et le couple de variables latentes P (C i , C j ). Remarquons que le dénominateur, rj=1 (Ajk )2 = Vkk = kX k k2D , est égal à 1 dans le cas d’une ACP usuelle sur variables centrées réduites. 7.2.4 Eléments supplémentaires Les individus et variables du tableau X sur lesquels a été effectué une ACP sont dits “actifs”. Ils ont été visualisés et interprétés grâce aux bases orthonormées qui ont servi à les montrer en photo. On peu représenter sur celles ci des individus ou variables n’ayant pas pris part à la détermination des axes factoriels. Ces individus ou variables dits “supplémentaires” peuvent apporter des compléments dans l’analyse. variables individus et variables Y X suppléactifs mentaires individus Z supplémentaires Variables supplémentaires Soit Y le tabeau des variables supplémentaires mesurées sur les mêmes n individus et transformées comme les variables actives l’ont été : Y est centré mais peut être éventuellement réduit... Grâce à la deuxième formule de transition (**)’, la coordonnée de la variable Y k sur l’axe factoriel actif U j , s’écrit n Ajk Y k0 DC j X pi p Yik Cij . = p = λj λj i=1 On peut représenter la variable suplémentaire k sur un plan factoriel et par exemple, visualiser par l’ACP usuelle, les corrélations de Y k avec les variables actives... Individus supplémentaires Le taleau Z des individus supplémentaires est supposé D-centré par rapport à l’individu moyen actif 1I0 DT . Ce tableau Z a été réduit si les colonnes de X l’ont été, en utilisant les écarts types des variables actives. La première formule de transition (*)’ permet de calculer la coordonnée sur l’axe actif V j , de la projection M -orthogonale de l’individu l Zl M A j Clj = p . λj On peut visualiser sur le plan factoriel (i, j) une population d’individus supplémentaires et la comparer à celle des individus actifs. 7.3 Exercices Exercice 1 Soit X une matrice réelle n × p dont le rang est r. Comparer la décomposition en valeurs singulières des deux triplets (X, M, D) et (Z = D 1/2 XM 1/2 , Ip , In ). Exercice 2 : Approximation d’une matrice par une matrice de rang donné Soit Z une matrice réelle n × p de rang r dont la décomposition √ √ 1/2 1/2 en valeurs singulières s’écrit Z = Ur Λr Vr0 où Λr = diag( λ1 , . . . , λr ) avec Théorème : λ1 ≥ . . . ≥ λr > 0. On note Ek l’ensemble des matrices n × p de rang fixé k (k ≤ r) et {Eij (r, k)}i,j la base canonique pour les matrices r × k. Alors min kZ − Zk k2F = kZ − Ẑk k2F = Zk ∈Ek 1/2 où Ẑk = Uk Λk Vk0 avec Uk = √ √ diag( λ1 , . . . , λk ). 2 Pk i=1 r X λi , i=k+1 Ur Eii (r, k), Vk = Pk i=1 1/2 Vr Eii (r, k) et Λk = 1. Exprimer Uk (respectivement Vk ) en fonction des colonnes de Ur (respectivement Vr ). Quelle est la valeur de Ẑk lorsque k = r? 2. Sachant que la norme de Frobénius k.kF , (kXk2F = trace(X 0 X)) est invariante par transformation orthogonale, montrer que’il existe deux matrice B et C respectivement n × k et k × p de rang maximum telles que kZ − Zk k2F = kΛ − BCk2F = φ(B, C) où Λ est la matrice n × p de la décomposition en valeurs singulières complète contenant les valeurs singulières de Z. 3. L’objectif étant maintenant de minimiser φ(B, C), montrer dans un premier temps que pour B fixé, def Ĉ(B) = arg min φ(B, C) = (B 0 B)−1 B 0 Λ C et que minimiser φ(B, Ĉ(B))revient à maximiser ϕ(B) = trace(B(B 0 B)−1 B 0 ΛΛ0 ). 4. Utiliser les propriétés de ΠB = B(B 0 B)−1 B 0 pour montrer que ϕ(B) = kΠB Λk2F . Ecrire Λ dans la base canonique {Eij (n, p)}i,j des matrices n × p et montrer que ϕ(B) = r X λ i ai , i=1 où ai = kΠB ei (n)k2F . 5. Démontrer que 0 ≤ ai ≤ 1, pour i = 1, . . . , n et que déduire que max ϕ(B) = B et que la maximum est réalisé pour B̂ = 6. Conclure en montrant que Pk k X Pn i=1 ai = rang(B) = k. En λi i=1 i=1 Eii (n, k). Calculer Ĉ(B̂). Ẑk = arg min kZ − Zk k2F . Zk ∈Ek L’ACP usuelle normée ou non Exercice 3 Une étude gastronomique a conduit à apprécier le service, la qualité et le prix de quatre restaurants. Pour cela, un expert a noté ces restaurants avec des notes allant de -3 à 3. Les résultats sont les suivants Restaurant Service Qualité Prix R1 -2 3 -1 R2 -1 1 0 R3 2 -1 -1 R4 1 -3 2 La matrice des covariances est 5/2 −3 1/2 V = −3 5 −2 1/2 −2 3/2 et celle des corrélations (aux erreurs d’arrondi près) 1 −0.85 0.26 R= 1 −0.73 −0.85 0.26 −0.73 1 . Pour l’étude , on effectuera une ACP centrée avec des poids équirépartis. 1. Etude des valeurs propres a. Vérifier simplement que V admet une valeur propre λ3 = 0. b. On donne λ1 = 30.5/4. En déduire λ2 . 2. c. Calculer les pourcentages d’inertie. Quelle est la dimension à retenir? 0.5 0.65 a. On donne, aux erreurs d’arrondi près, v1 = −0.8 et v2 = 0.11 0.3 −0.75 Calculer les composantes principales. . b. Représenter les individus dans le plan principal (1,2). 3. a. Déterminer les corrélations entre les variables et les composantes. b. Représenter les variables sur le cercle des corrélations dans le plan factoriel (1,2). c. Interpréter les résultats. Exercice 4 Soit la matrice X = [X 1 , X 2 , X 3 ] dont les 1 R= ρ −ρ variables ont pour matrice des corrélations ρ −ρ 1 ρ , ρ 1 avec−1 ≤ ρ ≤ 1. On désire effectuer une ACP centrée réduite de X. 1 1 . 1. Vérifier que R admet pour vecteur propre √ −1 3 1 2. Déterminer les autres valeurs propres et vecteurs propres de R. 3. Quelles sont les valeurs possibles de ρ? 4. Justifier le fait que l’ACP n’a d’intérêt que si −1 < ρ < 0. 5. Calculer dans ce cas les pourcentages de variance expliquée. 6. Comment s’interprète par rapport à X 1 , X 2 , et X 3 l’unique composante à retenir ici? Exercice 5 Soit la matrice T = √ 2 2 3 3 1 2 10 1 0 3 2 1 4 2 1 3 des mesures de 5 individus munis de poids statististiques égaux, sur 3 variables notées T 1 , T 2 et T 3 . On désire effectuer une Analyse en Composantes Principales (ACP) sur variables centrées-réduites. 1. Calculer l’individu moyen, le vecteur (σ1 , σ2 , σ3 ) des écarts types et la X des variables centrées-réduites. 2. Calculer la matrice R des corrélations. 3. Calculer les éléments propres de R. √ 4. Les deux premiers vecteurs propres de R associés aux valeurs propres λ1 = 1 + 2/2 et λ2 = 1, sont : √ 2 1 v1 = 1 2 −1 et 0 1 v2 = √ 1 . 2 1 Déterminer les composantes principales c1 et c2 dont on vérifiera les propriétés statistiques. 5. Représenter les individus et les variables dans les plans factoriels (1,2). Quelle est l’interprétation des variables c1 et c2 ? √ √ √ 6. Représenter dans le plan (1,2) l’individu supléméntaire ( 10, 2 10, 2 10). Exercice 6 : ACP usuelle normée et ACP du triplet (X, diag(σ1−2 , . . . , σp−2 ), n−1 In ) Soit T la matrice des n mesures sur p variables quantitativesqet X la matrice des P variables centrées au sens des poids statistiques n1 . On note σj = n1 ni=1 (Xij )2 , l’écart type de la variable X j et Y = Xdiag(σ1−1 , . . . , σp−1 ) la matrice des variables centrées réduites. 1. Etude de l’ACP normée d’ordre k du triplet (Y, M = Ip , D = n−1 In ) : a. Ecrire l’expression des opérateurs VY M = Y 0 DY M et WY D = Y M Y 0 D b. Ecrire la définition des axes principaux et des composantes principales pour l’ACP normée. 2. Etude de l’ACP d’ordre k du triplet (X, M = diag(σ1−2 , . . . , σp−2 ), D = n−1 In ) : a. Ecrire l’expression des opérateurs VX M = X 0 DXM et WX D = XM X 0 D b. Ecrire la définition des axes principaux et des composantes principales pour cette l’ACP. 3. Comparer les résultats des questions 1 et 2. Conclusions quant-à la représentation des individus et des variables pour ces deux ACP? Exercice 7 : ACP d’un ensemble de notes Les données jointes ont été restreintes pour les besoins de ce problème à 10 étudiants. Pour chaque individu on dispose d’un ensemble de 3 notes , Mathématiques (“Maths”), Physique (“Phys”) et Technologie (“Techn”) ainsi que d’une information supplémentaire sur la provenance de l’étudiant fournie par la variable booléenne indicatrice de l’origine (“Orig”). Les résultats de l’Analyse en Composantes Principales des 3 premières variables actives centrées sont donnés en annexe. a. Analyser les résultats. Dire pourquoi le premier axe factoriel a ses coordonnées positives. Dans ce cas, le premier axe est appelé “axe de taille” le second “axe de forme”. b. Pour examiner si la provenance des individus est liée aux résultats obtenus, représenter la variable “Orig” en variable supplémentaire sur le plan factoriel (1,2). c. Situer dans le plan factoriel (1,2) un individu supplémentaire dont les notes seraient : Math = 12, Phys = 12, Techn = 12. __________________________________________________________________ ANNEXE : -----Notes et Origine Math Phys Techn Orig 1 17 12 13 1 2 9 10 8 0 3 12 12 13 1 4 15 12 14 1 5 9 10 11 0 6 13 15 12 1 7 11 9 10 0 8 14 15 16 1 9 9 11 11 0 10 13 14 13 1 ________________________________________________________________ moyenne et variances des variables Matrice des covariances Math Phys Techn moy 12.2 12 12.1 var 6.76 4 4.49 Math Phys Techn Math 6.76 2.9 3.98 Phys 2.90 4.0 3.10 Techn 3.98 3.1 4.49 __________________________________________________________________ Inertie totale = 15.25 __________________________________________________________________ val.pro. % inert. % cumul. 1 11.9718 78.50 78.50 2 2.3033 15.10 93.60 3 0.9750 6.39 100.00 _______________________________________________________________ aides a l’interpretation pour les u.s. : Composantes Principales c1 c2 c3 1 3.795 -3.022 0.560 2 -5.417 -0.263 1.278 3 0.365 0.367 -0.763 4 2.981 -1.409 -0.758 5 -3.743 0.508 -1.089 6 1.893 1.499 1.955 7 -3.395 -1.793 -0.325 8 4.812 1.849 -0.936 9 -3.276 1.197 -0.534 10 1.985 1.067 0.611 Contributions absolues des 10 u.s. pour les 3 premieres composantes CTA1 CTA2 CTA3 1 1203 3965 322 2 2451 30 1675 3 11 58 597 4 743 863 589 5 1170 112 1215 6 299 975 3919 7 963 1396 108 8 1934 1484 899 9 896 622 292 10 329 494 383 Contributions relative des 3 premieres composantes pour les 10 u.s. COS1 COS2 COS3 1 6039 3829 132 2 9452 22 526 3 1569 1583 6847 4 7763 1735 502 5 9066 167 767 6 3713 2328 3959 7 7764 2165 71 8 8435 1245 319 9 8620 1151 229 10 7226 2088 685 _______________________________________________________________ aides a l’interpretation pour les variables : Axes Principaux a1 a2 a3 Math 2.374 -1.029 0.261 Phys 1.615 1.046 0.548 Techn 1.932 0.390 -0.779 Contributions absolues des 3 variables pour les 3 premiers axes CTA1 CTA2 CTA3 Math 4706 4594 700 Phys 2178 4746 3077 Techn 3117 660 6223 Contributions relative des 3 axes pour les 3 premieres variables COS1 COS2 COS3 Math 8334 1565 101 Phys 6517 2733 750 Techn 8310 339 1351 _______________________________________________________________ 2 Phys 1.0 8 6 9 0.5 1 10 −1 7 −3 1 −4 −2 0 2 4 −1.0 −0.5 4 Techn 0.0 0 a 2 2.3033 ( 15.1 %) 3 2 −2 c 2 2.3033 ( 15.1 %) 5 Math 0.0 0.5 c 1 11.9718 ( 78.5 %) 1.0 1.5 2.0 a 1 11.9718 ( 78.5 %) Figure 17 : plans factoriels (1, 2) pour les individus et les variables de l’ACP centrée d’un ensemble de notes. L’Analyse Factorielle Discriminante (AFD) Exercice 8 : L’AFD ou ACP du triplet (G, V−1 , ∆) Soit X la matrice, supposée de rang p, de l’échantillon d’apprentissage de n mesures sur p variables quantitatives centrées au sens des poids statistiques stockés dans la matrice diagonale D = diag(p1 , . . . , pn ). On dispose en outre d’une partition des n individus en S S q groupes : {1, . . . , n} = I1 . . . Iq où Ii = {k ∈ {1, . . . , n} | k ∈ groupe i}. Soit ∆ = P diag(P1 , . . . , Pq ) la matrice diagonale des poids statistiques des groupes : Pi = j∈Ii pj est le poids du groupe i. On note y la variable qualitative à q modalités caractérisant l’appartenance des n individus aux q groupes : yk = i signifie que l’individu k appartient au groupe i. Soit Y la matrice n × q, du codage disjonctif complet de y : Y = [Yki = δyk i ]. L’objectif de l’Analyse Factorielle Discriminante (AFD), ne pas confondre avec Analyse Factorielle des Données, est de déterminer des axes factoriels de IR p sur lesquels, en projection, les individus moyens des q groupes ont une inertie maximale. La métrique utilisée sur IRp est V−1 = (X 0 DX)−1 . 1. Construction et propriétés de la matrice G, q × p, des individus moyens: a. Dire pourquoi ∆ = Y 0 DY est bien une métrique sur IRq et V−1 est une métrique sur IRp ? L’individu moyen du groupe i, la ième ligne de G, est défini par 1 X Gi = pj Xj . Vérifier que G = ∆−1 Y 0 DX. Pi j∈I i b. Montrer que G est ∆-centrée. Soit B = G0 ∆G la matrice p × p des covariances Q QD entre les groupes (“Between”). Montrer que B = X 0 D D Y X, où Y est la matrice de projection D-orthogonale sur Im Y . 2. Etude de l’ACP d’ordre k du triplet (G, V−1 , ∆) : a. Ecrire l’expression de l’opérateur des covariances de ce triplet en fonction de B et de V. Soient {V 1 , . . . , V k } les k premiers vecteurs propres de cette matrice (les axes factoriels appelés ici axes discriminants). Quelle est l’expression du facteur principal F i , appelé facteur discriminant, en fonction de V i ? Quelle est la matrice qui admet les {F i } comme vecteurs propres? b. On représente sur l’axe factoriel V i , les n individus de l’échantillon d’apprentissage comme individus supplémentaires. Donner l’expression du vecteur di de IRn , appelé ici variable discriminante, donnant les coordonnées de ces points sur l’axe V i . 7.4 Formulaires ACP usuelle d’ordre k du triplet (X, M = Ip , D = n−1 In ) 7.4.1 T ; n×p X = (In − n−1 1I1I0 )T V = n−1 X 0 X n individus (actifs), p variables quantitatives (actives) tableau des variables centres matrice des covariances (des corrlations si variables rduites) V V i = λi V i λ1 ≥ . . . ≥ λ k {V 1 , . . . , V k } Pp 1 λi = trace(V) = Variance totale = Inertie {A1 , . . . , Ak } Facteurs principaux, V i ∈ IRp , kV i k2 = 1, V i0 V j = 0 √ √ Axes principaux, Ai = λi V i , kAi k2 = λi , Ai0 Aj = 0 {C 1 , . . . , C k } Composantes principales, C i ∈ IRn C i = XV i = X 1 V1i + . . . + X p Vpi moy(C i ) = 0 ; var(C i ) = λi ; cov(C i , C j ) = 0, i 6= j C i vecteur propre de n−1 XX 0 associ λi ; W = XX 0 r(C j , X i ) = Aji /σ(X i ) bk = X k X 1 √ C i Ai0 λi i=1 Contributions absolues bk k2F = n Approximation de rang k de X ; kX − X de l’individu k l’axe i : CT Aik = (Cki )2 /(nλi ), p X λi i=k+1 n X CT Aik = 1 k=1 de la variable k l’axe i : CT Aik = (Aik )2 /λi , p X CT Aik = 1 k=1 p Contributions relatives de l’axe i l’individu k : CT Rki = (Cki )2 /Wkk , X CT Rki = 1 i=1 de l’axe i la variable k : CT Rki = (Aik )2 /Vkk , Formules de transition 7.4.2 i i √ C = XA / λi DVS du triplet (X, M, D) ; i 0 i √ A = X C /(n λi ) p X i=1 CT Rki = 1 DVS du triplet (Xn×p , Mp×p , Dn×n ) ; 1/2 −1/2 X = U Λr V 0 = CΛr A0 ; rang (X) = r Λr = diag(λ1 , . . . , λr ) ; λ1 ≥ . . . ≥ λ r > 0 VM = X 0 DXM Opérateurs X DXM V = V Λr XM X 0 DU = U Λr X 0 DXM A = AΛr XM X 0 DC = CΛr Pr = trace(VM ) = trace(WD) = i λi Inertie totale kXk2M ⊗D Espaces Axes Principaux √ A i = λi V i Individus Bases M ⊥ de Im (X 0 ) ⊂ (IRp , M ) V = [V 1 , . . . , V r ], V 0 M V = Ir A = [A1 , . . . , Ar ], A0 M A = Λ r √ kA kM = λi i i kV kM = 1, WD = XM X 0 D 0 Composantes Principales 1/2 A = V Λr (**)’ −1/2 A = X 0 DU = X 0 DCΛr Facteurs Principaux F = M V V = AA0 Ci = Variables Bases D ⊥ de Im (X) ⊂ (IRn , D) U = [U 1 , . . . , U r ], 1 r U 0 DU = Ir kU kD = 1, λi U i 1/2 C = U Λr (*)’ −1/2 C = XM V = XM AΛr 0 C = [C , . . . , C ], i √ C DC = Λr √ kC kD = λi i W = CC 0 = XF Bibliography [1] X. Bry. Analyses Factorielles Simples, Economica, Paris, 1995. [2] X. Bry. Analyses Factorielles Multiples, Economica, Paris, 1996. [3] F. Cailliez et J. P. Pages, Introduction à l’Analyse des Données, SMASH, Paris, 1976. [4] P. G. Ciarlet. Introduction à l’Analyse Numérique Matricielle et à l’Optimisation, Masson, Paris, 1990. [5] European Courses in Advanced Statistics. Methods for Multidimensional Data Analysis, Dipartimento di Matematica e Statistica, Università di Napoli, 1987. [6] M. J. Greenacre. Theory and Applications of Correspondence Analysis, Academic Press, London, 1984. [7] P. Lascaux et R. Theodor. Analyse Numérique Matricielle Appliquée à l’Art de l’Ingénieur, tome 1, Masson, Paris, 1986. [8] J. R. Magnus et H. Neudecker. Matrix Differential Calculus with Applications in Statistics and Econometrics, Wiley & Sons, Chichester, 1988 [9] C. R. Rao et S. K. Mitra. Generalized Inverse of Matrices and Its Applications, Wiley, New-York, 1971. [10] G. Saporta. Probabilités, Analyse de Données et Statistique, Technip, Paris, 1990. 133