Eléments de Calcul Matriciel et Différentiel pour l`Analyse Factorielle

publicité
Eléments de Calcul Matriciel
et Différentiel pour l’Analyse
Factorielle de Données.
Jean-François Durand
[email protected]
Université Montpellier II
Contents
1 Matrices, Définitions et Propriétés
7
1.1
Notations et premières définitions . . . . . . . . . . . . . . . . . . . . . . .
7
1.2
Matrice associée à une application linéaire . . . . . . . . . . . . . . . . . .
9
1.3
Quelques matrices particulières . . . . . . . . . . . . . . . . . . . . . . . .
9
1.3.1
Matrice adjointe d’une matrice A . . . . . . . . . . . . . . . . . . .
9
1.3.2
Matrices hermitiennes . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4
Image, noyau, rang d’une matrice . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1
Image d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2
Noyau d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.3
Rang d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5
Déterminant d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . 12
1.6
Inverse d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7
Changements de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7.1
Effet sur les coordonnées d’un vecteur . . . . . . . . . . . . . . . . . 15
1.7.2
Effet sur les éléments d’une matrice . . . . . . . . . . . . . . . . . . 15
1.8
Valeurs propres, vecteurs propres . . . . . . . . . . . . . . . . . . . . . . . 15
1.9
Trace d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.10 Formes linéaires, formes quadratiques . . . . . . . . . . . . . . . . . . . . . 18
1.11 Matrices orthogonales et unitaires . . . . . . . . . . . . . . . . . . . . . . . 20
1.11.1 Les matrices de permutation . . . . . . . . . . . . . . . . . . . . . . 20
1.11.2 Les matrices de rotation . . . . . . . . . . . . . . . . . . . . . . . . 21
1.11.3 Construction d’une base orthonormée par le procédé de Gram-Schmidt 22
1.12 Opérateur vec et produit de Kronecker . . . . . . . . . . . . . . . . . . . . 22
1.12.1 L’opérateur vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.12.2 Produit de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.12.3 Matrice de commutation . . . . . . . . . . . . . . . . . . . . . . . . 25
3
1.13 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Décomposition de Matrices
2.1
31
Les projecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.1
Sous espaces supplémentaires et projecteurs . . . . . . . . . . . . . 32
2.1.2
Exemple fondamental . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.3
D’autres matrices orthogonales : les matrices de réflexion . . . . . . 34
2.2
Matrices carrées diagonalisables . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3
Factorisation QR d’une matrice rectangulaire
2.4
Décomposition unitaire des matrices carrées . . . . . . . . . . . . . . . . . 38
2.5
. . . . . . . . . . . . . . . . 37
2.4.1
Le théorème de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.2
Matrices normales
. . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Décomposition en valeurs singulières . . . . . . . . . . . . . . . . . . . . . 41
2.5.1
Deux versions de la DVS . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.2
Décomposition polaire . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6
Factorisation de Cholesky d’une matrice symétrique définie positive . . . . 46
2.7
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3 Normes de Matrices
3.1
3.2
51
Normes de vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1
Normes de Hölder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.2
Généralisation de la norme Euclidienne, la M -norme . . . . . . . . 54
Normes de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1
Normes subordonnées à des normes vectorielles . . . . . . . . . . . 56
3.2.2
Normes Euclidiennes par vectorisation . . . . . . . . . . . . . . . . 58
3.2.3
Normes matricielles sous multiplicatives . . . . . . . . . . . . . . . 60
3.2.4
Normes unitairement invariantes . . . . . . . . . . . . . . . . . . . . 61
3.3
Suites de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4
Conditionnement d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . 63
3.5
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4 Inverses Généralisés, Projecteurs M -Orthogonaux
4.1
4.2
67
Inverses Généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.1.1
Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.1.2
Inverse de Moore-Penrose . . . . . . . . . . . . . . . . . . . . . . . 70
Projecteurs M -orthogonaux . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3
4.2.1
Projecteur M -orthogonal sur Im A . . . . . . . . . . . . . . . . . . 72
4.2.2
Un problème aux moindres carrés . . . . . . . . . . . . . . . . . . . 74
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5 Dérivation Matricielle
77
5.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2
Dérivation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.3
5.4
5.2.1
Matrices Jacobiennes . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2.2
Hessien de fonctions numériques . . . . . . . . . . . . . . . . . . . . 81
Extremums de fonctions numériques . . . . . . . . . . . . . . . . . . . . . . 82
5.3.1
Problèmes d’extremums libres . . . . . . . . . . . . . . . . . . . . . 84
5.3.2
Problèmes d’extremums liés . . . . . . . . . . . . . . . . . . . . . . 85
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6 Le paysage mathématique et statistique de l’Analyse Factorielle de
Données : la géométrie Euclidienne
89
6.1
Le triplet (T, M, D) des données . . . . . . . . . . . . . . . . . . . . . . . . 90
6.2
Statistique et géométrie sur (IRn , D), espace des variables . . . . . . . . . . 91
6.3
6.2.1
Le simplexe des poids statistiques et la droite des constantes . . . . 91
6.2.2
Moyenne et centrage vus comme une projection . . . . . . . . . . . 92
6.2.3
Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.2.4
Proximité entre deux variables, covariance et corrélation linéaire . . 94
6.2.5
Définitions et notations pour la statistique multivariée . . . . . . . 96
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
7 Généralisation de la Décomposition en Valeurs Singulières. Analyse en
Composantes Principales du triplet (X, M, D)
7.1
7.2
101
Décomposition en Valeurs Singulières du triplet . . . . . . . . . . . . . . . 102
7.1.1
Lemme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.1.2
La DVS du triplet (X, M, D) . . . . . . . . . . . . . . . . . . . . . 103
7.1.3
Relation avec la DVS usuelle . . . . . . . . . . . . . . . . . . . . . . 104
7.1.4
Projecteurs orthogonaux associés à la DVS . . . . . . . . . . . . . . 105
7.1.5
Théorème d’approximation d’Eckart-Young . . . . . . . . . . . . . . 105
Analyse en Composantes Principales d’ordre k du triplet (X, M, D) . . . . 106
7.2.1
Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7.2.2
Projections des points lignes . . . . . . . . . . . . . . . . . . . . . . 113
7.2.3
Projections des vecteurs colonnes . . . . . . . . . . . . . . . . . . . 117
7.2.4
Eléments supplémentaires . . . . . . . . . . . . . . . . . . . . . . . 120
7.3
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.4
Formulaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.4.1
ACP usuelle d’ordre k du triplet (X, M = Ip , D = n−1 In ) . . . . . . 131
7.4.2
DVS du triplet (X, M, D) . . . . . . . . . . . . . . . . . . . . . . . 131
Chapter 1
Matrices, Définitions et Propriétés
Ce chapitre n’est pas un cours de calcul matriciel mais a pour ojectif d’une part de
rappeler de façon succinte les principales définitions et propriétés étudiées au cours du
premier cycle et d’autre part, d’en introduire de nouvelles utilisées en statistique et en
calcul différentiel matriciel. On supposera que les notions de IK-espace vectoriel (IK est
IR ou C)
I et d’applications linéaires sont connues. De façon commode en dimension finie,
lorsqu’une base de l’espace vectoriel est spécifiée, l’expression d’un vecteur dans la base
est assimilée à une matrice colonne. La base choisie par défaut est la base canonique.
1.1
Notations et premières définitions
Une matrice m × n, A, est un tableau d’éléments de IK, tel que


a11 . . . a1n
 .
.. 
.
A = [aij ] = 
. 
 .
.
am1 . . . amn
L’élément courant aij , ième ligne, jième colonne, sera parfois noté aji . La somme de deux
matrices de même dimensions est définie par
A + B = [aij ] + [bij ] = [aij + bij ].
Le produit d’une matrice par un scalaire λ ∈ IK, est défini par
λA = Aλ = [λaij ] .
Ces deux opérations confèrent à l’ensemble Mmn (IK) des matrices de m lignes et n
colonnes sur IK, une structure d’espace vectoriel de dimension mn qui sera aussi noté
7
IK m×n . On note {Eij (m, n)}i,j la base canonique de IK m×n , définie par


0. . . . . . 0.
 ..
.. 


Eij (m, n) = Eij =  0. · · · 0 1 0 · · · 0.  ,
 ..
.. 
0 . . . . . 0
matrice dont le seul élément non nul est l’élément ij qui vaut 1.
n
m X
X
ai j Eij (m, n).
A=
i=1 j=1
Outre les opérations liées à la structure d’espace vectoriel, il existe une autre opération
appelée produit matriciel. Soient A = [aij ], m × n, et B = [bij ], n × p, alors le produit
AB est la matrice m × p définie par
"
C = AB = cij =
Soit A = [aij ], une matrice m × n.
La matrice identité d’ordre m, Im =
m
X
n
X
#
aik bkj .
k=1
Eii (m, m). Alors, A = Im A = AIn .
i=1
La matrice A0 , transposée de A, est la matrice n × m, A0 = [a0ij = aji ].
La base canonique pour Mm1 (IK) = IK m×1 identifié à IK m , est notée
{ei (m) = Ei1 (m, 1)}i=1,...,m ,
ou {ei }i lorsqu’il n’y aura pas d’ambiguté sur la dimension. On a les propriétés :
∗ Eij (m, n) = ei (m)e0j (n).
∗ Assimilant IR et IR1×1 , le symbole de Kronecker, δij = e0i (n)ej (n) =
∗ Eij er = colonne r de Eij = δjr ei
e0r Eij = ligne r de Eij = δir e0j .
∗ Soient Ai la ligne i et Aj la colonne j de A.
aij = e0i (m)Aej (n).
m
X
j
A = Aej (n) =
aij ei (m)
et
Ai = e0i (m)A =
et
A=
i=1
n
X
j=1
aij e0j (n)
n
X
Aj ej (n)0 .
j=1
A=
m
X
i=1
ei (m)Ai .
(
1 si i = j
0 si i 6= j
1.2
Matrice associée à une application linéaire
Rappelons la définition d’une application linéaire g du IK-espace vectoriel E dans le IKespace vectoriel F
∀(λ, µ) ∈ IK 2 , (x, y) ∈ E 2 .
g(λx + µy) = λg(x) + µg(y),
Soient E et F deux IK-espaces vectoriels de dimensions finies (E = IK n et F = IK m ),
{e1 , . . . , en } une base de E et {f1 , . . . , fm } une base de F . Soit enfin g une application
linéaire de E dans F (on dira g ∈ L(E, F )), telle que x −→ y = g(x).
On appelle matrice de g relativement aux deux bases, la matrice A = [aij ] de dimen-
sions m × n définie par colonnes
g(e1 ) . . .
A=[A
1
...
g(en )
An ]
La jième colonne Aj contient les coordonnées de g(ej ) exprimées dans la base
P
{f1 , . . . , fm }. Plus précisément, g(ej ) = m
i=1 aij fi .
Alors, la matrice colonne Y = [yi ] des coordonnées de y dans la base {fi }, s’exprime
en fonction de la matrice colonne X = [xj ] des coordonnées de x dans la base {ej },
P
grâce au produit matriciel Y = AX où yi = m
j=1 aij xj .
En outre, soit A une matrice de Mmn (IK).
Alors A est la matrice d’une unique
application linéaire gA de IK n dans IK m relativement aux bases canoniques de ces
espaces. On dit que gA est l’application linéaire canoniquement associée à A.
1.3
1.3.1
Quelques matrices particulières
Matrice adjointe d’une matrice A
Dans ce cours, les nombres et matrices complexes sont seulement liés aux valeurs propres
et vecteurs propres de matrices carrées réelles non-symétriques. Aussi, un traitement
détaillé des éléments de C
I m×n est omis.
Soit A = [aij ] ∈ C
I m×n , A∗ = [a∗ij ], adjointe de A, est l’élément de C
I n×m tel que a∗ij = aji .


a11 . . . a1n
 .
.. 
..
A=
. 

 = X + iY
am1 . . . amn


a11 . . . am1
 .
.. 
0
0
..
A∗ = 
. 

 = X − iY
a1n . . . amn
Remarquons que A∗ = A0 si et seulement si A est réelle. On a les propriétés suivantes
P1 : (A∗ )∗ = A,
P2 : (A + B)∗ = A∗ + B ∗ ,
P3 : (λA)∗ = λA∗ ,
P4 : (AB)∗ = B ∗ A∗ .
1.3.2
Matrices hermitiennes
On dit que A est hermitienne (respectivement symétrique) si A∗ = A (respectivement
A0 = A).
Bien sûr, des matrices hermitiennes (resp.
symétriques) sont carrées.
Remarquons
que le produit de deux matrices hermitiennes n’est pas en général une matrice
hermitienne. La propriété suivante sera démontrée au chapitre suivant
P0 : Une matrice hermitienne A a toutes ses valeurs propres réelles et il existe une base
orthonormée de C
I n formée par les vecteurs propres de A.
Notons
Λ = diag(λ1 , . . . , λn ),
λi ∈ IR
la matrice diagonale des valeurs propres de A hermitienne et V = [v 1 , . . . , v n ] la
matrice dont les colonnes sont les vecteurs propres correspondants.
∀i,
Av i = λi v i
⇐⇒
AV = V Λ
∀i, j
v i ∗ v j = δij
⇐⇒
V ∗ V = In ,
où In est la matrice identité d’ordre n. Si A est symétrique réelle, les vecteurs
propres sont réels et forment une base orthonormée de IRn .
1.4
Image, noyau, rang d’une matrice
On définit l’image, le rang et le noyau de la matrice A comme étant respectivement
l’image, le rang et le noyau de l’application linéaire gA canoniquement associée à A. Dans
le chapitre 2, nous verrons que la décomposition en valeurs singulières d’une matrice est
un outil efficace permettant de déterminer le rang de la matrice et de construire des bases
orthogonales pour l’image et pour le noyau lorsque celui-ci n’est pas réduit à {0}.
1.4.1
Image d’une matrice
L’image de A ∈ IK m×n , notée Im A, est le sous espace vectoriel de IK m engendré par
les colonnes de A.
Im A = E{A1 , . . . , An } = {y ∈ IK m | ∃x ∈ IK n ,
Ax = y}.
C’est l’ensemble des combinaisons linéaires, y = A1 x1 + . . . + An xn , des colonnes de A.
La ième coordonnée, xi , de x s’appelle le poids de Ai dans l’expression de y.
Systèmes d’équations linéaires compatibles
Soit A ∈ IRm×n la matrice des coefficients du système et soit y ∈ IRm le vecteur second
membre. Résoudre le système linéaire défini par le couple (A, y), c’est chercher une
solution x telle que Ax = y.
On dit que le système linéaire Ax = y est compatible s’il admet au moins une solution
c’est à dire si y ∈ Im A.
Tous les systèmes linéaires seront supposés réels, car un système sur C,
I se décompose en
deux sytèmes sur IR l’un correspondant à la partie réelle et l’autre à la partie imaginaire
des nombres complexes.
On verra au chapitre 4 comment résoudre un système compatible grâce à la notion
d’inverse généralisé d’une matrice.
Un système qui n’est pas compatible est dit
impossible. La résolution d’un problème “aux moindres carrés” étudié au chapitre 4, permet, entre autres résultats, de décider si un système linéaire est impossible ou compatible.
Un système linéaire défini par (A, 0) est dit homogène. Un système linéaire homogène
est toujours compatible.
L’ensemble des solutions d’un système homogène Ax = 0, s’appelle le noyau de A.
1.4.2
Noyau d’une matrice
Le noyau de A ∈ IK m×n est le s.e.v. de IK n dont l’image est le zéro de IK m
Ker A = {x ∈ IK n | Ax = 0m }.
On a les propriétés suivantes,
P1 : Ker A est non-vide car 0n ∈ Ker A.
P2 : gA est injective ssi Ker A = {0n }.
P3 : {Im A}⊥ = Ker A∗ et {Ker A}⊥ = Im A∗ (clef chapitre 2).
1.4.3
Rang d’une matrice
Le rang de A ∈ IK m×n , noté rang(A), est le nombre de colonnes de A linéairement
indépendantes,
rang(A) = dim Im A.
Outre que rang(X) ≤ min(m, n), on a les propriétés suivantes
P0 : Théorème du rang : n = rang(A) + dim Ker A.
P1 : gA est surjective (injective) ssi rang(A) = m (rang(A) = n).
P2 : rang(A) = rang(A∗ ) = rang(A∗ A) = rang(AA∗ ).
P3 : rang(AB) ≤ min(rang(A), rang(B)).
P4 : rang(A + B) ≤ rang(A) + rang(B).
P5 : Soient B et C deux matrices carrées inversibles. Alors, rang(BAC) = rang(A).
1.5
Déterminant d’une matrice carrée
σ est une permutation sur {1, . . . , n} si et seulement si σ est une bijection de
{1, . . . , n} sur lui-même.
On verra dans la section 1.11.1 les propriétés d’une matrice associée à une permutation.
Le déterminant d’une matrice n × n, A = [aij ] est l’unique nombre noté dét(A)
X
²(σ)a1σ(1) a2σ(2) . . . anσ(n) ,
dét(A)=
σ∈Sn
où Sn est l’ensemble des n! permutations de {1, 2, . . . , n} et ²(σ) est la signature de
la permutation σ. La signature vaut +1 si σ est une composition d’un nombre pair
de permutations élémentaires, -1 si c’est une composition d’un nombre impair de permutations élémentaires (σ est dite élémentaire si σ(i) = j, σ(j) = i et σ(k) = k pour
k 6= i, j).
Cette définition est d’un coût calculatoire très élevé.
Elle exprime le déterminant
comme une fonction polynomiale des éléments de la matrice.
L’expression suivante
permet un calcul du déterminant de proche en proche en fonction de déterminants de
matrices extraites de A, ce qui dans certains cas peut simplifier le calcul.
Si A = [a] ∈ C
I 1×1 , alors dét(A) = a.
Si A ∈ C
I n×n , développement du déterminant selon la colonne j
n
X
dét(A) =
cij aij pour j ∈ {1, . . . , n},
i=1
où cij est le cofacteur de l’élément aij de A, c’est à dire cij = (−1)i+j dét(Aij ). La
matrice Aij est la matrice extraite de A en suprimant la ligne i et la colonne j.
P0 : Le déterminant d’une matice carrée A = [A1 . . . An ] est une forme multilinaire alternée des colonnes de A, c’est à dire, (A1 , . . . , An ) −→ D(A1 , . . . , An ) = dét(A)
avec
D(A1 , . . . , λAj + µV j , . . . , An ) = λD(A1 , . . . , Aj , . . . , An ) + µD(A1 , . . . , V j , . . . , An )
D(A1 , . . . , Ai , . . . , Aj , . . . , An ) = −D(A1 , . . . , Aj , . . . , Ai , . . . , An ).
Conséquences :
* D(A1 , . . . , λAj , . . . , An ) = λD(A1 , . . . , Aj , . . . , An ).
** On ne change pas le déterminant d’une matrice carrée si à une colonne (une
ligne) on ajoute une combinaison linéaire des autres colonnes (lignes).
P1 : dét(AB) = dét(A)dét(B).
P2 : dét(A∗ ) = dét(A).
P3 : Si A est diagonale ou triangulaire alors dét(A) est le produit des éléments diagonaux.
1.6
Inverse d’une matrice carrée
On dit que A carrée d’ordre n est inversible ou régulière s’il existe une matrice notée
A−1 appelée inverse de A, telle que
A−1 A = AA−1 = In .
Si A−1 existe, cette matrice est unique.
P1 : (AB)−1 = B −1 A−1 si A et B sont inversibles.
P2 : si A est inversible, (A−1 )∗ = (A∗ )−1 .
P3 : Soit C = [cij ] la matrice des cofacteurs de A, alors si A est inversible, A−1 =
C 0 /dét(A).
P4 : A carrée est inversible ssi A est de plein rang rang(A) = n c’est à dire dét(A) 6= 0.
P5 : Si A est inversible, dét(A−1 ) = 1/dét(A).
P6 : Systèmes d’équations linéaires de Cramer : Soient A ∈ IR n×n et y ∈ IRn , alors le
système linéaire Ax = y est dit de Cramer si de façon équivalente
(i) : dét(A) 6= 0,
(ii) : rang(A) = n,
(iii) : Il existe une unique solution x̂ = A−1 y.
P7 : Caractérisation du rang d’une matrice n × p : Soit A ∈ IK n×p , Il esiste un entier
naturel r ≤ min(n, p), possédant les propriétés suivantes :
(i) : on peut extraire de A au moins une sous-matrice carrée régulière d’ordre r;
(ii) : toute sous-matrice carrée d’ordre supérieur à r n’est pas régulière.
Ce nombre r est appelé le rang de A. Ceci à pour conséquence la proptiété P2
rang(A) = rang(A∗ ) du rang d’une matrice.
P8 : Si A = diag(a1 , . . . , an ) est inversible alors A−1 = diag(1/a1 , . . . , 1/an ).
1.7
Changements de base
Soit E un espace vectoriel muni d’une base B = {e1 , . . . , en } que l’on qualifie d’ancienne
base. On choisit dans E une autre base B 0 = {e01 , . . . , e0n } appelée nouvelle base. Dans
tout le paragraphe 7, “prime” ne signifie pas “transposé” mais indique des objets relatifs
à la nouvelle base.
On appelle matrice de passage de la base B à la base B 0 , la matrice P carrée d’ordre n,
dont les colonnes expriment les coordonnées des vecteurs de B 0 dans la base B.
Cette matrice est régulière. La matrice de passage de B 0 à B est la matrice P −1 .
1.7.1
Effet sur les coordonnées d’un vecteur
Soit x un élément de E dont les coordonnées dans les deux bases B et B 0 sont stockées
dans les matrices colonnes X et X 0 . Alors
X = P X0
1.7.2
et
X 0 = P −1 X.
Effet sur les éléments d’une matrice
Soient E et F deux IK espaces vectoriels de dimension finie et g ∈ L(E, F ). Si E et
F sont munis chacun d’une base B = {e1 , . . . , en } pour E et C = {f1 , . . . , fm } pour F ,
alors g s’exprime à l’aide d’une matrice A ∈ IK m×n dans les deux bases précédentes. Si
on change maitenant la base B en une base B 0 = {e01 , . . . , e0n } et la base C en une base
0
C 0 = {f10 , . . . , fm
}, la mème application linéaire g va s’exprimer dans ces nouvelles bases
selon une autre matrice A0 . Qu’elle relation lie A et A0 qui appartiennent toutes deux à
IK m×n .
Soit P la matrice de passage de B à B 0 et soit Q la matrice de passage de C à C 0 , alors
A0 = Q−1 AP .
On dit que les matrices A et A0 sont équivalentes.
Dans le cas particulier d’un endomorphisme g ∈ L(E, E), l’influence du changement
de la base B en la base B 0 se traduit par A0 = P −1 AP . On dit alors que les matrices
carrées A et A0 sont semblables. Si A et A0 sont semblables, dét(A) = dét(A0 ). S’il
existe une base B 0 telle que A0 soit une matrice diagonale, on dit que la matrice A est
diagonalisable c’est à dire semblable à une matrice diagonale. Les conditions pour que A
soit diagonalisable sont présentées au chapitre 2.
1.8
Valeurs propres, vecteurs propres
Un vecteur v non nul de C
I n est appelé vecteur propre d’une matrice A ∈ C
I n×n s’il existe
un scalaire λ ∈ C
I tel que
Av = λv .
Le scalaire λ est appelé valeur propre de A associée à v.
L’ensemble des n valeurs propres est le spectre de la matrice.
(1)
On appelle rayon spectral de A le nombre positif ou nul ρ(A) = maxi |λi |.
Remarquer que (1) s’écrit
v 6= 0
v ∈ Ker (A − λIn ).
et
(1)
Les vecteurs propres n’étant définis qu’à une homothétie près, le plus souvent, on choisit
de normer à 1 un vecteur propre et la norme choisie est la norme Euclidienne (chapitre 3)
kvk2 = 1 .
Dans ce cas, un vecteur propre est défini au signe près.
Déterminer le sous-espace propre associé à λ c’est à dire le sous-espace de C
I n engendré par
l’ensemble des vecteurs propres définis par (1), revient à résoudre le système d’équations
linéaires homogène
(A − λIn )v = 0n .
Plus précisément,
(a11 − λ)v1 + a12 v2 + . . . + a1n vn = 0
a21 v1 + (a22 − λ)v2 + . . . + a2n vn = 0
.........................
.
.
an1 v1 + an2 v2 + . . . + (ann − λ)vn = 0.
Pour λ fixé, ce système de n équations à n inconnues possède une solution non nulle si et
seulement si il n’est pas de Cramer. Le spectre de A est donc l’ensemble des n solutions,
{λ1 , . . . , λn }, de l’équation caractéristique
PA (λ) = dét(A − λIn ) = 0
(2)
dont le premier membre est appelé le polynôme caractéristique de A.
Ce polynôme de degré n en λ, s’écrit en fonction des éléments de A (on n’exprime que
les coefficients les plus connus)
PA (λ) = (−1)n λn + (−1)n−1 trace(A)λn−1 + . . . + dét(A),
où la trace de la matrice A est la somme de ses éléments diagonaux trace(A) = a11 +
. . . + ann , voir section 1.9.
Une valeur propre de multiplicité ou d’ordre r de A est donc un zéro d’ordre r du polynôme
caractéristique.
Si A est réelle, alors, à toute valeur propre complexe, λi , est associée sa valeur propre
conjuguée, λi .
P1 : Deux matrices semblables ont mêmes polynômes caractéristiques.
Comme
conséquence, les coefficients de ce polynôme ne dépendent pas de A mais de g.
En particulier le déterminant et la trace d’une matrice ne dépendent que de g.
P2 : Si (λ, v) est un élément propre de A, alors Ak v = λk v, pour k entier positif.
P3 : Soit {λ1 , . . . , λn } le spectre de A, alors,
dét(A) = Πni=1 λi = λ1 . . . λn .
Comme conséquence, pour qu’une matrice A soit régulière, il faut et il suffit qu’elle
n’admette aucune valeur propre nulle.
P4 : Si (λ, v) est un élément propre de A inversible, A−1 v = λ−1 v.
P5 : Si (λ, v) est un élément propre de A, P(A)v = P(λ)v pour tout polynôme P.
P6 : Cayley-Hamilton : PA (A) = 0n×n
P7 : Perron : Pour une matrice carrée à éléments positifs, la valeur propre la plus grande
en module est également positive. C’est une valeur propre simple et le vecteur
propre associé est à coordonnées de même signe (positives).
P8 : Les valeurs propres non-nulles des produits AB et BA sont les mêmes.
précisément, soient A n × m et B m × n (m > n), alors
dét(λIm − BA) = λm−n dét(λIn − AB) .
P9 : Si A est une matrice diagonale ou triangulaire, alors λi = aii , ∀i.
1.9
Trace d’une matrice carrée
La trace de A = [aij ] ∈ C
I n×n est définie par la somme des éléments diagonaux
n
X
trace(A) =
aii .
i=1
Plus
Propriétés
P1 : trace(A) = trace(A0 ).
P2 : Linéarité : trace(A + B) = trace(A) + trace(B)
trace(αA) = α trace(A).
P3 : Invariance par permutation : trace(AB) = trace(BA), si AB et BA sont carrées.
P
P4 : trace(A) = i λi , si {λ1 , . . . , λn } = spect(A). (Clef, théorème de Schur).
P5 : Deux matrices semblables ont même trace, trace(P −1 AP ) = trace(A).
1.10
Formes linéaires, formes quadratiques
Produit scalaire défini sur un espace vectoriel E :
Soit E un espace vectoriel pas forcément de dimension finie, une application de
E × E dans C
I (IR) est un produit scalaire ssi à tout couple (x, y) elle fait correspondre le nombre complexe (réel) < x, y > tel que
D1 : < x, y >= < y, x >.
D2 : < α1 x1 + α2 x2 , y >= α1 < x1 , y > +α2 < x2 , y >
D3 : < x, x >≥ 0
∀α1 , α2 ∈ C
I (IR).
(réel d’après D1).
D4 : < x, x >= 0 ⇐⇒ x = 0E .
Comme première propriété
< x, αy >= α < x, y > .
La norme Euclidienne d’un élément x associée au produit scalaire est définie par
√
kxk = < x, x >.
L’inégalité suivante dite de Cauchy-Schwarz est donnée par
| < x, y > | ≤ kxkkyk .
L’égalité a lieu si les vecteurs sont colinéaires.
En dimension finie, on note par x0 = [x1 , . . . , xn ] le vecteur ligne transposé du vecteur
colonne x et par x∗ = [x1 . . . , xn ] le vecteur adjoint, alors le produit scalaire usuel se
calcule par
∗
< x, y >= y x =
n
X
i=1
xi y i
sur C
I n,
0
< x, y >= y x =
n
X
xi yi
sur IRn .
i=1
On verra au chapitre 3 que la norme Euclidienne associée au produit scalaire usuel est la
2-norme de Hölder définie par
v
,
u n
uX
|xi |2 .
kxk2 = t
i=1
Soit a ∈ C
I n , l’application ϕ de C
I n dans C
I est appelée une forme linéaire si
x −→ ϕ(x) =< x, a >= a∗ x .
Soit A ∈ C
I n×n hermitienne, l’application φ de C
I n dans IR est appelée une forme
quadratique si
x −→ φ(x) =< Ax, x >= x∗ Ax.
En effet, d’après D1, A hermitienne entraine que < Ax, x > est réel
< Ax, x >= x∗ Ax = x∗ A∗ x =< x, Ax >= < Ax, x > .
Remarque : Dans le cas réel, supposons A ∈ IRn×n non symétrique et x ∈ IR, alors
1
ϕA (x) = x0 Ax = x0 ( (A + A0 ))x = ϕ 1 (A+A0 ) (x).
2
2
La matrice 12 (A + A0 ) est symétrique. Dans le cas réel, l’hypothése de symétrie de A est
donc toujours implicitement admise.
On dit que A hermitienne, est
définie positive
si x∗ Ax > 0
semi définie positive
si x∗ Ax ≥ 0
∀x 6= 0,
∀x.
La forme quadratique associée est définie positive (resp. semi définie positive) .
De façon évidente, les matrices réelles BB ∗ et B ∗ B sont semi définies positives.
Montrons le pour B ∗ B,
x∗ B ∗ Bx = kBxk22 ≥ 0 .
B ∗ B est définie positive si et seulement si Ker B = {0}, c’est à dire, B est de plein rang
P
colonne. En effet, dans ce cas : Bx = i B i xi = 0 ⇐⇒ x = 0.
1.11
Matrices orthogonales et unitaires
Soit une matrice U de C
I m×n (m ≥ n), l’espace C
I m des colonnes de U étant muni
du produit scalaire usuel. On dit que U est unitaire si les colonnes de U sont des
vecteurs 2 à 2 orthogonaux et de norme unité, c’est à dire si
U ∗ U = In .
Lorsque U est réelle ont dit que U est orthogonale, dans ce cas
U 0 U = In .
Premières propriétés des matrices unitaires :
P1 : Le produit de 2 matrices unitaires est une matrice unitaire.
P2 : Une matrice carrée est unitaire si et seulement si
U −1 = U ∗ .
P3 : Le déterminant d’une matrice carrée unitaire est de module égal à 1.
1.11.1
Les matrices de permutation
Soit
une
σ
{1, 2, 3, 4},
permutation définie
1 2 3 4
i
.
σ(i) 3 1 4 2
dans
la
section
1.5,
par
exemple
sur
La matrice de passage de la base canonique {ei } de IRn à la base {fi = eσ(i) },
Q = [eσ(1) , . . . , eσ(n) ], est appelée la matrice de permutation associée à σ,

0
 0
Q= 1
0
La permutation inverse

0 0 1
 1 0 0
−1
D’où Q =  0 0 0
0 1 0
permutation.
1
0
0
0
0
0
0
1

0
1 
0 .
0
1 2 3 4
i
est définie par
.
σ −1 (i) 2 4 1 3

0
0 
0
1  = Q . Cette propriété est vraie pour toutes les matrices de
0
Soit X = [x1 , x2 , x3 , x4 ]0 la matrice colonne des coordonnées d’un vecteur dans {ei }
et Y la matrice colonne des coordonnées de ce vecteur dans la base permutée, alors
Y = Q−1 X = [x3 , x1 , x4 , x2 ]0 .
Multiplier à gauche une matrice par Q−1 revient à permuter ses lignes selon σ et la
multiplier à droite par Q permute ses colonnes selon σ. Sur l’exemple, X = [x1 , x2 , x3 , x4 ]
alors XQ = [x3 , x1 , x4 , x2 ].
1.11.2
Les matrices de rotation
La dimension 2 :
Une matrice Q, 2 × 2, orthogonale est une matrice de rotation si
"
#
cos(θ) − sin(θ)
Q=
,
(dét(Q) = 1) .
sin(θ) cos(θ)
Alors, y = Qx est obtenu par rotation de x d’un angle θ.
La dimension n :
Une matrice Q(i, k, θ), n × n, orthogonale est une matrice de rotation de Givens
si elle est de la forme

1
 ...

 0

Q(i, k, θ) =  ...

 0
 .
..
0
...
...
0
..
.
. . . cos(θ)
..
.
. . . sin(θ)
..
.
...
0
...
...
...
...
...
0
..
.
− sin(θ)
..
.
cos(θ)
..
.
0
... 0
..
.
... 0
..
.
... 0
. . . ..
.
... 1





 , (dét(Q(i, k, θ)) = 1) ,



obtenue par modification de la matrice identité In à l’intersection des lignes,
colonnes i et k.
Si y = Q(i, k, θ)x, y est obtenu par la rotation de x d’un angle θ dans le sens direct dans le plan défini par les deux vecteurs ei et ek de la base canonique (y diffère de x
seulement sur les coordonnées i et k).
1.11.3
Construction d’une base orthonormée par le procédé de
Gram-Schmidt
Proposition : A partir d’un ensemble de vecteurs linéairement indépendants de IK n
{f1 , . . . , fk }, on peut construire un ensemble de vecteurs {q1 , . . . , qk } orthonormés qui
engendrent le même espace
E{f1 , . . . , fk } = E{q1 , . . . , qk } .
2
Preuve : Construisons d’abord une suite de k vecteurs {p1 , . . . , pk } deux à deux orthog-
onaux.
p1 = f 1
p2 = f 2 −
.
.
...
pi = f i −
< p1 , f2 >
p1
kp1 k22
< p2 , fi >
< pi−1 , fi >
< p1 , fi >
p1 −
p2 . . . −
pi−1
2
2
kp1 k2
kp2 k2
kpi−1 k22
i ≤ k.
On vérifie que < pi , pj >= 0 pour j < i et que E{f1 , . . . , fi } = E{p1 , . . . , pi } . La suite
{qi =
pi
}i=1...k
kpi k2
est bien une suite de vecteurs orthonormés. Si de plus k = n, c’est une base de IK n .
1.12
Opérateur vec et produit de Kronecker
1.12.1
L’opérateur vec
2
Soit A = [A1 , . . . , Ap ], une matrice n × p. On définit l’opérateur vec d’empilement des
colonnes par


A1
 . 
np
. 
vec(A) = 
 .  ∈ IK
Ap

A1
.
Si A =  ..  , l’empilement en colonne des lignes de A se fait par vec(A0 ) ∈ IK np . En
An
général, vec(A) 6= vec(A0 ) sauf si A est une matrice colonne,

Notations : (vec(A))0 = vec0 (A) et (vec(A))∗ = vec∗ (A)
Propriétés
P1 : Linéarité : vec(αA + βB) = α vec(A) + β vec(B)
P2 : Soient X et Y deux matrices n × p
trace(Y ∗ X) =
1.12.2
Pp
j=1
Pn
i=1
y ij xij = vec∗ (Y )vec(X) =< vec(X), vec(Y ) >.
Produit de Kronecker
Soient A = [aij ] une matrice n × p et B = [bij ] une matrice m × q. Alors le produit de
Kronecker de A par B est une matrice nm × pq.

a B
···
a1p B
 11
...

 .
..
A ⊗ B = [aij B] =  ..
aij B
.

.
.

.
an1 B
···
anp B




.


Propriétés
Les trois premières propriétés justifient le nom de produit.
P1 : (α A) ⊗ B = A ⊗ (α B) = α(A ⊗ B).
P2 : Soient A et B deux matrices de mêmes dimensions, C et D, deux autres matrices
de mêmes dimensions, alors
(A + B) ⊗ (C + D) = A ⊗ C + A ⊗ D + B ⊗ C + B ⊗ D.
P3 : (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C).
P4 : Inp = In ⊗ Ip = Ip ⊗ In .
P5 : (A ⊗ B)∗ = A∗ ⊗ B ∗ .
P6 : (AC) ⊗ (BD) = (A ⊗ B)(C ⊗ D).
P7 : Soient A,B, deux matrices régulières, (A ⊗ B)−1 = A−1 ⊗ B −1
P8 : Soient A,B, deux matrices carrées, alors
P9 : Si x et y sont

x1 y1

..
xy 0 = 
 .
xn y1
trace(A ⊗ B) = trace(A)trace(B).
des matrices colonnes alors

· · · x 1 yp
.. 
...
0
0
. 
 = x ⊗ y = y ⊗ x = [y1 x| · · · |yp x].
· · · x n yp


y1 x
 . 
. 
vec(xy) = 
 .  = y ⊗ x.
yp x
P10 : Soient A, B, deux matrices carrées respectivement n × n et p × p avec
spect(A) = {λ1 , . . . , λn } et spect(B) = {µ1 , . . . , µp } alors
spect(A ⊗ B) = {λi µj / i = 1, . . . , n; j = 1, . . . , p},
xi ⊗ yj est vecteur propre de A ⊗ B,
si xi et yj sont les vecteurs propres associés respectivement à λi et à µj .
2
P11 : Soient A et B, deux matrices hermitiennes (semi) définies positives, alors A ⊗ B
est une matrice hermitienne (semi) définie positive.
P12 : Si A est n × n et B est p × p,
dét(A ⊗ B) = (dét(A))p (dét(B))n .
P13 : rang(A ⊗ B) = rang(A)rang(B).
P14 : Le produit de Kronecker de 2 matrices unitaires est une matrice unitaire.
P15 : Le produit de Kronecker de 2 matrices diagonales (rep. triangulaires) est une
matrice diagonale (resp. triangulaire).
Vectorisation d’un produit de matrices
Proposition : Soient A, B et C telles que ABC existe. Alors,
vec(ABC) = (C 0 ⊗ A)vec(B).
Preuve : Soit p le nombre de colonnes de B, B =
donne
vec(ABC) = vec
p
=
X
j=1
Ã
p
X
AB j e0j C
j=1
!
=
p
X
j=1
= (C 0 ⊗ A)
X
j=1
Pp
j=1
B j e0j .
La propriété P9
¡
¢
vec AB j (C 0 ej )0
(C 0 ej ) ⊗ (AB j ) = (C 0 ⊗ A)
p
2
p
X
j=1
ej ⊗ B j
vec(B j e0j ) = (C 0 ⊗ A)vec
Ã
p
X
j=1
B j e0j
!
.
2
Cas particulier
vec(AB) = (Ip ⊗ A)vec(B) = (B 0 ⊗ Im )vec(A) avec A matrice m × n et B matrice n × p.
Corollaire : Soient A, B, C et D telles que ABCD soit carrée
trace(ABCD) = vec0 (A0 )(D0 ⊗ B)vec(C) .
1.12.3
2
Matrice de commutation
Lorsque l’on a besoin d’exprimer vec(A0 ) en fonction de vec(A), la matrice de commutation permet ce passage.
On appelle Kmn , la matrice de commutation d’ordre m × n avec dim(Kmn ) = mn × mn
m X
n
X
Kmn =
Eij (m, n) ⊗ Eij0 (m, n).
i=1 j=1
Exemple : Soit m = 3 et n = 2 alors K32 est une

1 0 0 0
 0 0 0 1

 0 1 0 0
K32 = 
 0 0 0 0

 0 0 1 0
0 0 0 0
matrice 6 × 6

0 0
0 0 

0 0 
.
1 0 

0 0 
0 1
Remarque : Kmn est une matrice de permutation.
Proposition : Soit A une matrice m × n, alors
vec(A0 ) = Kmn vec(A).
2
Remarque : vec(A) = Knm vec(A0 ).
Propriétés
0
−1
P1 : Kmn
= Knm = Kmn
P2 : K1n = Kn1 = In .
P3 : Soient A et B, deux matrices respectivement n × s et m × t
Kmn (A ⊗ B) = (B ⊗ A)Kts ⇔ B ⊗ A = Kmn (A ⊗ B)Kst ⇔ A ⊗ B = Knm (B ⊗ A)Kts .
1.13
Exercices
Exercice 1 : Dans l’espace IR-espace vectoriel de dimension 4.
1) Soit D = {u1 , u2 , u3 , u4 } une base de E et soit g une application linéaire de E dans
lui-même (on dit un endomorphisme de E) ayant pour matrice N dans la base D : (a, b,
c et d désignent des réels quelconques)

1 0 a b



 0 1 c d 

.
N =

0
0
0
0


0 0 0 0
On notera Im g l’image de g et Ker g son noyau.
a) Calculer le rang de g ainsi que la dimension de Ker g.
b) Donner une base pour Im g.
c) Soient v1 = au1 + cu2 − u3 , v2 = bu1 + du2 − u4 . Démontrer que {v1 , v2 } est une base
de Ker g.
2) Soit B = {e1 , e2 , e3 , e4 } une base de E. On pose :
c1 = e2 + 2e3 + 2e4 , c2 = e1 + e2 + 2e3 + 3e4 , c3 = 2e1 + 2e2 + 2e3 + 3e4 et
c4 = 2e1 + 3e2 + 3e3 + 3e4 .
a) Démontrer que C = {c1 , c2 , c3 , c4 } est une base de E.
b) Ecrire la matrice de passage P de B à C et calculer son inverse.
c) Soit f l’endomorphisme de E défini par
f (e1 ) = −e1 −3e2 −6e3 −7e4 , f (e2 ) = 2e1 +5e2 +10e3 +12e4 , f (e3 ) = −3e1 −5e2 −10e3 −13e4
et f (e4 ) = 2e1 + 3e2 + 6e3 + 8e4 . Calculer la matrice M de f dans la base B puis la
matrice M 0 de f dans la base C.
d) Donner une base BI pour Im f et une base BK pour Ker f (les vecteurs de BI et BK
devront être exprimés dans la base B).
e) Soit V le sous-espace vectoriel de E engendré par c1 et c2 . Soit q la projection de E
sur V . Calculer Q la matrice de q dans la base B
Exercice 2 : Soit E l’espace vectoriel des polynômes sur IR de degré inférieur ou
égal à 3.
Déterminer le rang du système de vecteurs {u1 , u2 , u3 } de E défini par :
u1 = 4 + 3X + 2X 2 + X 3 , u2 = 6 + 2X + 2X 2 + 2X 3 et u3 = −8 − 11X − 6X 2 + X 3 .
Exercice 3 : Soit B = {e1 , e2 , e3 , e4 } une base de IR4 . On considère l’endomorphisme
f de IR4 et sa matrice Af,B associée dans la

0

 1
Af,B = 
 1

1
base B
1) Calculer les valeurs propres de f .
1 1 1


0 1 1 
.
1 0 1 

1 1 0
2) Pour chaque valeur propre λ de f , déterminer l’espace propre correspondant.
3) Déduire que f est diagonalisable.
4) Trouver en l’exprimant dans la base B, une base C = {u1 , u2 , u3 , u4 } de IR4 avec Af,C
diagonale et préciser quelle est la matrice Af,C .
Exercice 4 : Soit la matrice


1 −3 -4



A =  −1
3
4 
.
1 −3 −4
Calculer A2 . Calculer (I + A)(I − A) où I est la matrice unité d’ordre 3. En déduire que
I + A est inversible.
Exercice 5 : On considère la matrice

7
4
0
0

 −12 −7
0
0
A=
 20 11 −6 −12

−12 −6
6
11
1) Calculer les valeurs propres de A.



.


2) A est-elle diagonalisable? Inversible?
3) Déterminer une base de l’espace propre associé à la plus grande valeur propre de A.
Exercice 6 : La matrice suivante est-elle

1 2

 1 3
A=
 2 4

1 1
inversible? Si oui, calculer son inverse

3 1

3 2 
.
3 3 

1 1
Exercice 7 : Montrer que la matrice suivante est inversible dans M33 (IR) et calculer
son inverse
Exercice 8:

−3 5
6



.
A=
−1
0
−1


−2 1
1
Démontrer ces quelques ”petits” résultats utiles, les matrices sont supposées réelles.
1.1. A m × n, B n × p, C n × p, M m × m symétrique définie positive, x n × 1.
a) Ax = 0 ⇐⇒ A0 Ax = 0 et Ker A = Ker A0 M A.
b) AB = 0 ⇐⇒ A0 AB = 0.
c) A0 AB = A0 AC ⇐⇒ AB = AC.
1.2. A m × n, B n × n, C n × n symétrique.
a) (Ax = 0, ∀x ∈ IRn ) ⇐⇒ A = 0.
b) (x0 Ay = 0, ∀x ∈ IRm , ∀y ∈ IRn ) ⇐⇒ A = 0.
c) (x0 Cx = 0, ∀x ∈ IRn ) ⇐⇒ C = 0.
d) (x0 Bx = 0, ∀x ∈ IRn ) ⇐⇒ B 0 = −B.
1.3. Soient B m × p et C p × n, alors A = BC s’écrit
A=
p
X
B i Ci ,
i=1
où B i et Ci sont respectivement la ième colonne de B et la ième ligne de C.
Si D = diag(d1 , . . . , dp ) alors A = BDC s’écrit
A=
p
X
di B i Ci .
i=1
Exercice 9 : Montrer que trace(AB) = trace(BA).
Exercice 10 : Soit A une matrice n × n et spect(A) = {λi }i . Soit B une matrice
p × p et spect(B) = {µj }j . Montrer que les np valeurs propres de A ⊗ B sont λi µj et
que, si x est un vecteur propre de A et y un vecteur propre de B, alors, x ⊗ y est vecteur
propre de A ⊗ B.
"
0
1
#
qu’il y a des vecteurs propres de A ⊗ B qui ne
0 0
se déduisent pas des vecteurs propres de A et B.
Vérifier sur l’exemple A = B =
Exercice 11 : Soient A et B deux matrices carrées d’ordre respectifs n et p.
a) Montrer que si A et B sont symétriques (semi) définies positives, alors A ⊗ B est
symétrique (semi) définie positive.
b) Montrer que : dét(A ⊗ B) = [dét(A)]p [dét(B)]n
c) Montrer que :
rang(A ⊗ B) = rang(A)rang(B).
0
Indication :
Montrer que
0
rang(A ⊗ B) = rang((AA ) ⊗ (BB )) et conclure en utilisant la DVS.
Exercice 12 : Soit A une matrice n × n. Démontrer que vec(A0 ) = Kmn vec(A) avec
Kmn =
m X
n
X
i=1 j=1
Eij (m, n) ⊗ Eij0 (m, n).
Chapter 2
Décomposition de Matrices
On a vu qu’une application linéaire f de l’espace vectoriel E dans l’espace vectoriel
F , tous deux de dimension finie, pouvait être représentée par une matrice A relativement
aux bases choisies dans ces espaces. Une application linéaire étant ainsi représentée par
différentes matrices selon les bases choisies, le problème se pose de trouver des bases dans
lesquelles la matrice représentant l’application linéaire soit la plus simple possible. C’est le
problème de la réduction d’une matrice. Le cas le plus simple est celui des matrices carrées
diagonalisables. Mais toutes les matrices carrées ne sont pas diagonalisables... D’autre
part, toutes les matrices ne sont pas carrées. Comment réduire des matrices rectangulaires? Ou plutôt, comment décomposer une matrice en un produit de matrices ayant de
”bonnes” propriétés? Cependant, avant d’aborder les différents types de réduction ou de
décomposition et pour mieux comprendre leur interprétation géométrique, il est nécessaire
d’aborder la notion de projecteur qui sera développée au chapitre suivant.
2.1
Les projecteurs
La notion de projection est fondamentale tant en analyse fonctionnelle lors de
l’approximation par des séries de fonctions qu’en statistique où pour prendre un exemple
simple, la moyenne d’une variable s’exprime comme la projection sur la ”droite des constantes”. De nombreuses méthodes statistiques comme la régression linéaire, l’analyse en
composantes principales, etc, sont basées sur les projecteurs. Dans tous les espaces vectoriels sur lesquels on a défini un produit scalaire, la projection est un outil pour résoudre
de nombreux problèmes d’optimisation. On reviendra sur cette notion qui est abordée
dans la section suivante.
31
2.1.1
Sous espaces supplémentaires et projecteurs
Soient F et G deux s.e.v. du IK-e.v. E.
F + G = {x + y | x ∈ F, y ∈ G}
et
On dit que F et G sont supplémentaires si F
De façon équivalente :
F × G = {(x, y) | x ∈ F, y ∈ G} .
T
G = {0E } et F + G = E.
tout vecteur x de E s’écrit de manière unique
x = u + v avec u ∈ F et v ∈ G.
E est alors somme directe de F et G noté E = F ⊕ G
Remarquons que le supplémentaire d’un s.e.v. n’est pas unique.
Si F et G sont supplémentaires, les applications p et q de E dans E définies par
∀x ∈ E,
x = p(x) + q(x)
avec
p(x) ∈ F
et
sont linéaires (endomorphismes de E) et vérifient :
P1
p2 = p ; q 2 = q (idempotence)
P2
poq=q op=0
P3
p + q = IdE
P4
Im p = F = Ker q
et
q(x) ∈ G
Im q = G = Ker p.
On dit que p est la projection sur F parallèlement à G et que q = IdE − p est la
projection sur G parallèlement à F ou encore le projecteur supplémentaire de p.
On appelle projecteur dans un IK-e.v. E tout endomorphisme idempotent de E.
Dans le cas particulier où les deux sous espaces supplémentaires sont orthogonaux
(bien sûr, E est muni d’un produit scalaire)
E = F ⊕ F⊥
alors les projecteurs p et q associés sont dits projecteurs orthogonaux.
2.1.2
Exemple fondamental
Soient u et v de IK n muni du produit scalaire usuel, tels que
< u, v >= v ∗ u = 1 .
Remarquons que, puisque < u, v >= kuk2 kvk2 cos(u, v), la condition précédente impose
que l’angle vectoriel entre u et v est aigu. Considérons la matrice n × n
P = uv ∗ .
Cette matrice jouit des propriétés suivantes :
P 2 = uv ∗ uv ∗ = uv ∗ = P
et si x ∈ Im u, c’est à dire si x = αu,
P x = uv ∗ (αu) = αuv ∗ u = αu = x .
Mais, si x est orthogonal à v, alors
P x = uv ∗ x = u(v ∗ x) = 0 .
L’image de P est donc Im u, le noyau de P est le sous espace vectoriel de dimension n − 1
orthogonal à v.
IK n = Im u ⊕ {Im v}⊥ .
P est donc la matrice de l’application linéaire ”projection sur u parallèlement à {Im v} ⊥ ”.
x
Ker P
v
Px
u
Im P
Figure 1 : Projection sur u parallèlement à {Im v}⊥ .
Si on choisit v = u et kuk2 = 1, dans ce cas, le projecteur orthogonal s’écrit
P = uu∗ .
D’une façon plus générale, soit F donné ainsi qu’une base {u1 , . . . , ur } orthonormée de F .
Soit U = [u1 , . . . , ur ], alors U ∗ U = Ir . On montrera au chapitre suivant que la matrice
P =
r
X
ui u∗i = U U ∗
i=1
est le projecteur orthogonal sur F = Im U . Le projecteur (P 2 = P ) est orthogonal car
P = P ∗.
2.1.3
D’autres matrices orthogonales : les matrices de réflexion
La dimension 2 :
Une matrice Q, 2 × 2, orthogonale et symétrique, est une matrice de réflexion si elle est
de la forme
Q=
"
cos(θ)
sin(θ)
sin(θ) − cos(θ)
#
(dét(Q) = −1) .
,
Si y = Qx = Q0 x, y est obtenu par symétrie du vecteur x par rapport à la droite
vectorielle définie par
S = Im
"
cos(θ/2)
sin(θ/2)
#
.
La dimension n :
Soit v ∈ IRn , v 6= 0, une matrice Q, n × n, orthogonale et symétrique, est une matrice
de réflexion de Householder si elle est de la forme
Q(v) = In − 2vv 0 /v 0 v ,
(dét(Q(v)) = −1) .
Par un léger abus de langage on convient que Q(0) = In bien que dét(Q(0)) = 1.
Reflexion Q(v) = I - 2 P
Projection orthogonale P = vv’/ v’v
u = Px
x=z+u
v
z = (I - P) x
{Im v}
-u
y = Q(v) x = z - u
Figure 2: Symétrie par rapport à l’hyperplan vectoriel {Im v}⊥ .
Si y = Q(v)x = Q0 (v)x, y est obtenu par symétrie du vecteur x par rapport à l’hyperplan
vectoriel {Im v}⊥ = {z = (z1 , . . . , zn ) ∈ IRn | z 0 v = v1 z1 + . . . vn zn = 0}. Cela résulte du
fait que la matrice P = vv 0 /v 0 v est la matrice de projection orthogonale sur Im v (clef
section 2 1.2).
Proposition : Toute matrice Q n × n orthogonale peut s’écrire comme le produit de n
réflexions
∃ v1 , . . . , vn ∈ IRn ,
Q = Q(v1 ) . . . Q(vn ) .
Remarque : Les endomorphismes de (IRn , k.k2 ) canoniquement associés à des matri-
ces carrées orthogonales Q, sont appelés des isométries de (IRn , k.k2 ) car d’après P4 les
normes sont conservées (kQxk2 = kxk2 ) ou de façon équivalente les produits scalaires
(< Qx, Qy >= y 0 Q0 Qx =< x, y >). Pour les angles, on a
cos(Qx, Qy) =
< Qx, Qy >
= cos(x, y).
kQxk2 kQyk2
2.2
Matrices carrées diagonalisables
Une matrice carrée A d’ordre n est diagonalisable si elle est semblable à une matrice
diagonale Λ = diag(λ1 , . . . , λn ), c’est à dire s’il existe une matrice S inversible (matrice
de passage de l’ancienne base à la base diagonalisante) telle que
Λ = S −1 AS ⇐⇒ A = SΛS −1 ⇐⇒ AS = SΛ ⇐⇒ S −1 A = ΛS −1 .
La ième colonne de S est le vecteur propre de A associé à la valeur propre λi .
Condition nécessaire et suffisante : Une condition nécessaire et suffisante pour que
A carrée d’ordre n, soit diagonalisable est que ses n vecteurs propres soient linéairement
indépendants.
2
Condition suffisante : Les vecteurs propres associés à des valeurs propres distinctes
sont linéairement indépendants. Si toutes les valeurs propres de A sont distinctes, alors
A est diagonalisable.
2
Décomposition spectrale de A diagonalisable : Soit A diagonalisable telle que
A = SΛS −1 . Associés à λi , notons ui la ième colonne de S et v i∗ la ième ligne de S −1 .
La décompositon spectrale de A s’écrit
A=
n
X
λi ui v i∗
i=1
Le vecteur v i est vecteur propre de A∗ associé à λi et v j ∗ ui = 0, si j 6= i. Ceci signifie que
les vecteurs propres distincts de A et de A∗ sont orthogonaux.
2
Preuve : La diagonalisation donne S −1 A = ΛS −1 . La ième ligne de cette équation matricielle s’écrit v i∗ A = λi v i∗ et en prenant l’adjointe A∗ v i = λi v i . D’autre part, S −1 S = I
signifie que v j ∗ ui = δij .
2
Remarquons que les valeurs propres λi ne sont pas toutes forcément distinctes. Regroupons les valeurs propres égales. Soit ni la multiplicité de λi ,
n = n1 + . . . + n s .
Posons N0 = 0 et pour i = 1 à s, Ni = n1 + . . . + ni . A s’écrit


Ni
s
X
X
A=
λi 
uk v k∗  .
i=1
Posons
Pi =
k=Ni−1 +1
Ni
X
k=Ni−1 +1
uk v k∗
alors
A=
s
X
λi P i
i=1
I=
s
X
Pi .
i=1
C’est l’écriture de la décomposition spectrale de A par les projecteurs sur les sous espaces
propres Ker(A − λi I). En effet les matrices Pi vérifient les propriétés suivantes.
Pi2 = Pi
APi = λi Pi
2.3
et
P i Pj = 0
j 6= i .
Factorisation QR d’une matrice rectangulaire
Nous avons vu comment par le procédé de Gram-Schmidt, il est possible à partir d’une
famille libre {A1 , . . . , An } de vecteurs de IK m (m ≥ n), de construire une famille
{Q1 , . . . , Qn } orthonormée qui engendre le même espace. La construction de la matrice
unitaire Q1 = [Q1 , . . . , Qn ] à partir de la matrice de plein rang colonne A = [A1 , . . . , An ]
est ainsi basée sur le système


A1



 A2

.



 n
A
d’équations
= r11 Q1
= r12 Q1 + r22 Q2
.
···
= r1n Q1 + r2n Q2 + · · · + rnn Qn .
Ceci conduit à la forme ”maigre” de la factorisation QR.
Version ”maigre” de la factorisation QR
Soit A ∈ C
I m×n (m ≥ n) une matrice de plein rang colonne,
A = Q 1 R1
est unique avec Q1 matrice m × n unitaire et R1 ∈ C
I n×n matrice triangulaire supérieure
à éléments diagonaux réels positifs.
2
La construction de Q1 et de R1 par la procédure de Gram-Schmidt est numériquement
instable à cause de la propagation des erreurs d’arrondi dues au fait que les colonnes de
Q1 sont calculées ”en cascade” : Q2 est construite à partir de de Q1 , Q3 en fonction de
Q2 et Q1 , etc. D’autres méthodes (voir exercice) numériquement plus stables sont mises
en oeuvre.
Il est difficile de connaı̂tre à priori le rang d’une matrice. La version ”pleine” de la
factorisation QR supprime l’hypothèse de plein rang colonne pour A.
Version ”pleine” de la factorisation QR
Soit A ∈ C
I m×n (m ≥ n), il existe Q et R telles que
"
#
R
A=Q
0
avec Q matrice m × m unitaire et R ∈ C
I n×n matrice triangulaire supérieure à éléments
diagonaux réels positifs ou nuls. Si A est de plein rang colonne alors les n premières
colonnes de Q forment une base orthonormée de ImA et la diagonale de R est à éléments
positifs.
2.4
2
Décomposition unitaire des matrices carrées
Le théorème suivant indique que toute matrice carrée est triangularisable.
2.4.1
Le théorème de Schur
Théorème de Schur : Si A ∈ C
I n×n , il existe une matrice unitaire U ∈ C
I n×n (U ∗ U =
U U ∗ = In ) et une matrice triangulaire supérieure T telles que
A = UT U∗ ,
U ∗ AU = T ,
AU = U T ,
U ∗A = T U ∗ ,
où T = Λ + N avec Λ = diag(λ1 , . . . , λn ) matrice diagonale des valeurs propres de A et
N matrice triangulaire supérieure stricte.
2
Remarque : Les colonnes de U ou vecteurs de Schur, solutions de AU = U Λ + U N ,
peuvent être complexes même si A est réelle. Dans le cas A réel, les valeurs propres
complexes sont deux à deux conjuguées. Les vecteurs de Schur ne sont vecteurs propres
de A que si N = 0 (matrices normales), dans ce cas, A est diagonalisable.
Premières applications
A1 trace(A) = trace(U T U ∗ ) = trace(U ∗ U T ) = trace(T ) =
P
i
A2 dét(A) = dét(U T U ∗ ) = dét(U )dét(T )dét(U −1 ) = dét(T ) =
2.4.2
Matrices normales
Une matrice carrée A est normale ssi A∗ A = AA∗ .
λi .
Q
i
λi .
Exemples : Les matrices hermitiennes A∗ = A, unitaires A∗ A = AA∗ = I, antihermitiennes A∗ = −A, sont normales.
Proposition : A est normale ssi il existe une matrice carrée U unitaire telle que
A = U ΛU ∗ ,
U ∗ AU = Λ ,
AU = U Λ ,
U ∗ A = ΛU ∗ .
Λ est la matrice diagonale formée des valeurs propres de A.
Autrement dit, une
matrice normale est diagonalisable et les vecteurs propres (les colonnes de U ) sont
orthonormés.
2
?
A = U ΛU ∗ =⇒ A∗ A = AA∗
Preuve :
A∗ A = U Λ∗ ΛU ∗ et AA∗ = U ΛΛ∗ U ∗ .
Or Λ∗ Λ = ΛΛ∗ = diag(|λi |2 ). Donc A∗ A = AA∗ .
?
A∗ A = AA∗ =⇒ A = U ΛU ∗
La décomposition de Schur donne A = U T U ∗ avec T triangulaire supérieure. Si A est
normale alors T triangulaire supérieure est normale ce qui implique T diagonale (voir
exercice).
2
Remarque : Lorsque A est normale, la décomposition spectrale de A s’écrit


Ni
n
s
X
X
X
A=
λi ui ui∗ =
λi 
uk uk∗  .
i=1
i=1
k=Ni−1 +1
Le projecteur
Ni
X
Pi =
uk uk∗
k=Ni−1 +1
sur le sous espace propre associé à λi est maintenant orthogonal car Pi∗ = Pi .
Revenons sur les trois exemples de matrices normales.
Matrices hermitiennes
H1 Une matrice hermitienne est diagonalisable. Ses valeurs propres sont réelles et ses
vecteurs propres orthogonaux.
2
Preuve : Seul reste à montrer que les valeurs propres sont réelles. A∗ = A, donc
Λ∗ = Λ ce qui implique λi = λi .
2
H2 Une matrice symétrique et réelle est diagonalisable. Ses valeurs propres sont réelles
et ses vecteurs propres sont réels et orthogonaux.
2
Preuve : Une matrice symétrique réelle est hermitienne. Tout vecteur propre u est
réel puisque solution du système linéaire réel (A − λI)u = 0.
2
H3 Une matrice hermitienne est (semi) définie positive ssi toutes ses valeurs propres
sont positives (non négatives).
Preuve : Soit (λ, u) avec
kuk22
2
= 1 un élément propre de A hermitienne (semi)
définie positive. Alors, < Au, u >=< λu, u >= λ. Si A est (semi) définie positive λ
est positif (positif ou nul).
Réciproquement, soit A hermitienne, A = U ΛU ∗ ,
< Ax, x >=< U ΛU −1 x, x >=< ΛU −1 x, U −1 x > .
Posons y = U −1 x. Les composantes du vecteur y sont les composantes du même
vecteur dans la base de IK n formée des vecteurs propres {u1 , . . . , un } de A.
< Ax, x >=
n
X
i=1
λi |yi |2 .
Le vecteur y est non nul ssi x est non nul. Supposons tous les λi strictement
positifs, alors ∀x 6= 0 < Ax, x > > 0. Supposons maintenant tous les λi ≥ 0.
Notons I = {i ∈ {1, . . . , n} | λi > 0} et supposons son complémentaire I = {i ∈
{1, . . . , n} | λi = 0} non vide. Alors, ImA = E{ui }i∈I et KerA = E{ui }i∈I sont des
sous espaces vectoriels supplémentaires orthogonaux et
< Ax, x >=
X
i∈I
La nullité est obtenue pour x dans KerA.
λi |yi |2 ≥ 0 .
2
H4 Critère de Sylvester : Une matrice hermitienne est (semi) définie positive ssi tous
ses mineurs principaux sont positifs (non-négatifs). Preuve, voir exercice 6.
H5 Soit A une matrice hermitienne (semi) définie positive. On peut construire une
matrice hermitienne (semi) définie positive notée A1/2 telle que
A = (A1/2 )2 .
2
Preuve : A = U ΛU ∗ où Λ = diag(λi ) avec λi positf ou (positif ou nul). Définissons
√
Λ1/2 = diag( λi ); donc, (Λ1/2 )2 = Λ. Alors, A1/2 = U Λ1/2 U ∗ est hermitienne (semi)
définie positive et (A1/2 )2 = A.
Matrices unitaires
2
U1 Une matrice carrée unitaire est diagonalisable, ses valeurs propres ont pour module
1 et ses vecteurs propres sont orthogonaux.
2
Preuve : Reste à montrer que les valeurs propres sont de module 1. A est carrée
unitaire, A∗ = A−1 . Comme AA∗ = A∗ A = I, ΛΛ∗ = Λ∗ Λ = I. L’égalité des
éléments diagonaux donne |λi |2 = 1.
2
Matrices anti-hermitiennes
AH1 Une matrice anti-hermitienne est diagonalisable, ses valeurs propres sont des imaginaires purs et les vecteurs propres sont orthogonaux.
2
Preuve : Reste à montrer que les valeurs propres sont des imaginaires purs. A∗ =
−A implique que Λ∗ = −Λ et en écrivant les éléments diagonaux, λi = −λi .
2.5
2
Décomposition en valeurs singulières
Pour une matrice rectangulaire la notion de valeur propre n’a pas de sens. Néanmoins,
les matrices carrées A∗ A et AA∗ sont hermitiennes semi définies positives. De plus,
rang(A) = rang(A∗ A) = rang(AA∗ ) = r ,
et d’après la propriété P7 de la section 1.8, les r valeurs propres non nulles (positives) de
A∗ A et AA∗ sont identiques.
On appelle valeurs singulières de A les racines carrées des valeurs propres non nulles de
A∗ A ou de A∗ A
µi =
2.5.1
p
p
λi (A∗ A) = λi (AA∗ ).
Deux versions de la DVS
Version ”maigre” (DVS1) : Soit A m × n telle que rang(A) = r. Alors
A=
∗
U Λ1/2
r V
=
r
X
µi ui v i∗
i=1
• U = [u1 | · · · |ur ] unitaire m × r est telle que ui est vecteur propre de AA∗ associé à
la valeur propre non nulle λi .
• V = [v 1 | · · · |v r ] unitaire n × r est telle que v i est vecteur propre de A∗ A associé à
la valeur propre non nulle λi .
1/2
• Λr = diag(λ1 , ..., λr ) et Λr
singulière de A.
= diag(µ1 , ..., µr ), où µi =
√
λi est la ième valeur
2
Version ”pleine” (DVS2) : Soit A m × n de rang r. Alors
A = P ΛQ∗ .
P = [u1 |...|ur |ur+1 |...|um ] = [U |Ũ ] carrée m × m unitaire et Q = [v 1 |...|v r |v r+1 |...|v n ] =
[V |Ṽ ] carrée n × n unitaire, ont leurs colonnes formées respectivement par les vecteurs
propres de AA∗ et de A∗ A. Pour obtenir P (resp. Q) on complète les vecteurs colonnes
de U (resp. V ) de la DVS1 par les vecteurs colonnes de Ũ (resp Ṽ ) qui sont les vecteurs
propres de AA∗ (resp A∗ A) associés à la valeur propre multiple 0. On forme ainsi une
∗
base orthonormée de IK m (resp. IK n ) : P ∗ P = P P∗ = Im , Q∗ Q =
 QQ = In . De plus
" 1/2
#
µ1
0


Λr
0
1/2
.
 , r × r. 2
..
Λ=
, m×n,
Λr = 


0 0
0
µr
Remarque : Lorsque A est réelle, A∗ = A0 est réelle ainsi que U, V, P et Q.
Preuve :
AA∗ et AA∗ sont hermitiennes (symétriques), semi-définies positives et ont mêmes
valeurs propres non nulles. Par Schur, ∃Q unitaire telle que
Q∗ A∗ AQ = diag(µ21 , ..., µ2n ).
Posons C = AQ. Soit cj la jème colonne de C, alors ci∗ cj = µ2i δij .
Comme rang(AQ) = r, on peut supposer que µ1 , ..., µr sont strictement positifs et
que µr+1 , ..., µn sont nuls.
Alors cj = 0m pour j = r + 1, ..., n, car c’est un vecteur associé à une valeur propre
nulle et donc kcj k22 = 0.
On construit P par colonnes :
j
pj = µ−1
j c si j = 1, ..., r.
(*)
pi∗ pj = (µi µj )−1 ci∗ cj = δij pour 1 ≤ i, j ≤ r.
On complète la matrice P pour former une base orthonormée de IK m , P = [p1 · · · pm ]
et ∀i, j ∈ {1, ..., m} pi∗ pj = δij .
Vérifions DVS2 en calculant un élément de la matrice P ∗ AQ :
Si 1 ≤ i, j ≤ r, [P ∗ AQ]ij = pi∗ cj = µj δij .
Si j > r, [P ∗ AQ]ij = 0 car alors cj = 0m .
Si j ≤ r et si i > r, pi∗ cj = µj pi∗ pj = 0.
Donc, P ∗ AQ = Λ.
Vérifions que les colonnes de P sont les vecteurs propres de AA∗ :
AA∗ P = AIn A∗ P = AQQ∗ A∗ P
= AQΛ∗ = P ΛΛ∗


2
µ
0 0
 1
.. 
...

. 


= P
 .
2

 0
0
µ
r


0 ··· 0 0
Par construction les colonnes de Q sont vecteurs propres de A∗ A.
2
Remarque : Dans la pratique :
• Le nombre de valeurs singulières fournit le rang de la matrice. Ces valeurs singulières
sont ordonnées, µ1 ≥ . . . ≥ µr > 0, ce qui induit un ordre sur les colonnes de U et
de V .
• Dans le calcul de U et de V , on ne calcule les vecteurs propres de AA∗ ou de A∗ A que
pour celle de ces matrices de plus petite dimension, les vecteurs propres de l’autre
se déduisent par des ”formules de transition” (*) et (**). Par exemple, si m ≥ n,
on calcule les vecteurs propres v 1 , . . . , v r de A∗ A, ceux de AA∗ associés aux valeurs
propres non nulles, sont donnés par
U = AV Λ−1/2
,
r
−1/2
où Λr
(∗)
1/2
= (Λr )−1 = diag(1/µ1 , . . . , 1/µr ). Dans l’autre cas, on utilise
V = A∗ U Λ−1/2
.
r
(∗∗)
Pour obtenir la DVS pleine il faut calculer les vecteurs propres associés aux valeurs
propres nulles.
Corollaire 1 : La décomposition en valeurs singulières donne
∗
A A=V
Λ2r V ∗
=
r
X
i=1
µ2i v i v i∗ ,
∗
AA =
U Λ2r U ∗
=
r
X
µ2i ui ui∗ .
2
i=1
Cas particulier : DVS d’une matrice hermitienne semi-définie positive
A∗ A = AA∗ = A2 et les valeurs singulières de A sont égales à ses valeurs propres. Alors,
U = V dans la DVS1 et la décomposition de Schur concide avec la DVS (modulo le signe
des vecteurs propres).
Corollaire 2 : Soit A m × n avec rang(A) = r. La DVS2 de A s’écrit A = P ΛQ∗ , avec
P = [U |Ũ ] et Q = [V |Ṽ ]. Alors,
Ker A = Ker A∗ A = Im Ṽ = E(v r+1 , ..., v n ),
Im A = Im AA∗ = Im U = E(u1 , ..., ur ),
Im A∗ = Im V = E(v 1 , ..., v r ) = {Ker A}⊥ ,
où E(xi , . . . , xj ) désigne l’espace vectoriel engendré par les vecteurs xi , ..., xj .
2
Preuve de la première égalité
Ax = 0 ⇔ A∗ Ax = 0. Donc Ker A = Ker A∗ A.
Comme A = U Λr V ∗ d’après la DVS1, x ∈ Ker A⇐⇒ U Λr V ∗ x = 0.
Comme (AB = 0) ⇐⇒ (A∗ AB = 0), on obtient :
Λr U ∗ U Λr V ∗ x = 0 ⇔ Λ2r V ∗ x = 0 ⇔ V ∗ x = 0, puisque Λr est inversible.
x orthogonal aux vecteurs colonnes de V , c’est-à-dire à (v 1 , ..., v r ), appartient à
E(v r+1 , ..., v n ).
2
Corollaire 3 : Il y a d’importantes projections orthogonales associées à la décomposition
1/2
en valeurs singulières. Soit A supposée de rang r et A = U Λr V ∗ = P ΛQ∗ , la DVS de
A. Rappelons les partitions colonnes de P et de Q
P = [U |Ũ ] ,
Q = [V |Ṽ ].
Les résultats sur la projection orthogonale présentés dans l’exemple fondamental et qui
seront démontrés au chapitre 4 doivent être associés au corollaire 2 pour donner
V V ∗ = projection orthogonale sur {Ker A}⊥ = Im A∗
Ṽ Ṽ ∗ = projection orthogonale sur Ker A
U U ∗ = projection orthogonale sur Im A
Ũ Ũ ∗ = projection orthogonale sur {Im A}⊥ = Ker A∗
Corollaire 4 : Éléments propres de la matrice de projection sur Im A
1/2
Proposition : Soit A = U Λr V ∗ = P ΛQ∗ , la DVS de la matrice A de rang r. La
matrice PA = U U ∗ est diagonalisable, ses vecteurs propres sont les colonnes de P et donc
orthonormés, ses valeurs propres sont 0 ou 1. Les vecteurs propres associés à la valeur
propre 1 sont les colonnes de U ceux associés à 0 sont les colonnes de Ũ . De plus,
trace(PA ) = rang (PA ) = rang (A).
2
∗
Preuve : Bien sûr, PA = U U hermitienne est diagonalisable. Le fait que P = [U |Ũ ] est
carrée unitaire donne P ∗ = P −1 et
PA = P
En outre, trace(PA ) = trace(Ir ) = r.
2.5.2
"
Ir 0
0 0
#
P −1 .
2
Décomposition polaire
Proposition : Soit A carrée n × n, alors il existe une matrice carrée unitaire U et une
matrice H hermitienne semi définie positive telles que
A = UH .
2
Preuve : Si A = P ΛQ∗ est carrée n × n, alors P , Λ et Q de la DVS2 sont carrées n × n.
On pose
.
A = P ΛQ∗ = (P Q∗ ) (QΛQ∗ ) = U H
avec U = P Q∗ et H = QΛQ∗ . U est unitaire comme produit de matrices unitaires et H
est par construction hermitienne semi définie positive.
2
Remarque : Le nom de ”décomposition polaire” rappelle la représentation polaire d’un
nombre complexe z = ρeiθ (ρ réel positif ou nul et eiθ nombre complexe unitaire). Il y
a analogie entre ces deux idées car les valeurs propres de H sont des nombres réels non
négatifs, et les valeurs propres de U sont des nombres complexes unitaires. Pour une
matrice A normale, l’analogie est encore plus stricte : une valeur propre λ de A est de la
forme λ = ρeiθ où ρ est une valeur propre de H et eiθ est valeur propre de U . En effet,
par Schur, pour A normale, de valeurs propres {ρj eiθj }j , ∃V unitaire telle que
A = V diag(eiθ1 , . . . , eiθn ) diag(ρ1 , . . . , ρn )V ∗
¢
¡
= V diag(eiθ1 , . . . , eiθn )V ∗ (V diag(ρ1 , . . . , ρn ) V ∗ ) = U H.
2.6
Factorisation
de
Cholesky
d’une
matrice
symétrique définie positive
Proposition : Soit A n × n réelle symétrique, définie positive. Il existe T triangulaire
supérieure avec Tii > 0 telle que
A = T 0T .
Cette décomposition est unique.
2
Intérêt
A symétrique définie positive est souvent utilisée en statistique comme métrique sur IR n
et définit ainsi le produit scalaire :
∀x, y ∈ IRn , < x, y >A = y 0 Ax.
La décomposition de Cholesky de A donne
< x, y >A =< T x, T y >In .
Changer de métrique revient donc à effectuer un transformation linéaire des données.
Cette transformation n’est pas unique : une autre transformation est obtenue par la
factorisation
A = A1/2 A1/2
où A1/2 est la matrice hermitienne définie positive obtenue à partir de la décomposition en
valeurs singulières de la matrice A hermitienne définie positive, ou par la décomposition
de Schur, voir la propriété H4 des matrices hermitiennes. Cette décomposition donne
< x, y >A =< A1/2 x, A1/2 y >In .
2.7
Exercices
Exercice 1 : Soient θ un angle exprimé en radians et w dont l’expression dans la base
canonique est
w=
"
cos(θ/2)
sin(θ/2)
#
.
5.1 Calculer en fonction de θ le vecteur v ∈ IR2 déduit de w par une rotation de π/2.
5.2 Soit x un vecteur de IR2 muni du produit scalaire usuel.
a) Calculer u, projection orthogonale de x sur Im v. Montrer que u = vv 0 x. On
note P = vv 0 , la matrice de la projection orthogonale sur Im v. Vérifier les deux
propriétés qui caractérisent un projecteur orthogonal. Calculer P en fonction de θ.
Quel est le rang de P ? Calculer les valeurs propres et les vecteurs propres de P .
b) Soit y le vecteur déduit de x par symétrie par rapport à la droite vectorielle
Im w = {Im v}⊥ . Exprimer y en fonction de u et de x. On note Q la matrice telle
que y = Qx. Exprimer Q en fonction de v et vérifier que
"
#
cos(θ) sin(θ)
Q=
.
sin(θ) − cos(θ)
Quelles sont les propriétés de Q appelée matrice de réflexion par rapport à {Im v} ⊥ ?
Exercice 2 : Démonstration du théorème de Schur :
Soit A ∈ C
I n×n , construire pour n = 2, une matrice U carrée unitaire telle que T = U ∗ AU
soit triangulaire supérieure dont les éléments diagonaux soient λ1 et λ2 , valeurs propres
de A. En supposant ce résultat vrai à l’ordre n − 1 montrer qu’il est vrai à l’ordre n.
Exercice 3 : Montrer qu’une matrice triangulaire supérieure normale est diagonale.
Exercice 4 : La norme de Frobénius d’une matrice A étant définie par kAkF =
(trace(A∗ A))1/2 , montrer que pour une matrice A carrée quelconque, on peut mesurer
l’écart de A à la normalité grce à la norme de Frobénius de la partie hors diagonale N de
la matrice T dans la décompsition de Schur de A,
X
.
|λi |2 = ∆2 (A) .
kN k2F = kAk2F −
i
Cette quantité ne dépend pas du choix de U , plus ∆2 (A) est proche de 0, plus A est
près d’être normale. Dire pourquoi une autre mesure de l’écart de A à la normalité est
kAA∗ − A∗ Ak2F .
Exercice 5 : Décomposer la matrice

1

A=
 0
2


0 
,
−1 −2
en valeurs singulières. Dans l’espace vectoriel IR3 muni de la base canonique, représenter
Im A et {Im A}⊥ . Donner l’expression des matrices de projection orthogonale sur Im A,
{Im A}⊥ , Im A0 et {Im A0 }⊥ .
Exercice 6 : Critère de Sylvester
On se propose de montrer que pour A symétrique réelle,
{A définie positive} ⇐⇒ { les mineurs principaux sont positifs }.
Soit A = [aij ] une matrice réelle symétrique, n × n, définie positive. On appelle kième
matrice principale de A, notée Ak , la matrice k × k obtenue en supprimant les n − k
dernières lignes et dernières colonnes de A. Remarquer que An = A. On appelle kième
mineur principal de A, le déterminant de Ak , noté dét(Ak ).
6.1.
a. Montrer que aii > 0 pour i = 1, . . . , n.
b. Ecrire la décomposition spectrale de A. Calculer dét(A) en fonction des valeurs
propres de A. Dire pourquoi dét(A)> 0 et A−1 est symétrique définie positive.
6.2. Soient B et P les matrices (n + 1) × (n + 1) définies par
B=
"
A b
b0 α
#
,
P =
"
In −A−1 b
00
1
#
.
a. Calculer C = P 0 BP par blocs. Quel est le spectre de C? Montrer que
dét(C) = dét(B) = dét(A) (α − b0 A−1 b).
b. Montrer que dét(B) ≤ α dét(A) et que légalité a lieu si et seulement si b = 0.
c. Montrer que B est définie positive si et seulement si C est définie positive.
d. Montrer que dét(B) > 0 si et seulement si C est définie positive.
e. Déduire des précédentes questions que dét(B) > 0 si et seulement si B est
définie positive
6.3. Montrer que pour A symétrique, {A définie positive} ⇐⇒ {dét(A k ) > 0 , k =
1, . . . n}.
a. Sens =⇒ : on note Ek la matrice k ×n, définie par blocs par Ek = [Ik 0k×(n−k) ],
où Ik est la matrice identité d’ordre k. Calculer Ak en fonction de A (supposée
définie positive) et de Ek . En déduire que toute matrice Ak est définie positive
et donc que tout mineur principal est positif.
b. Sens ⇐= : exprimer les blocs de Ak+1 en fonction de Ak , ak+1 k+1 et d’un vecteur
bk+1 à déterminer. Vérifier que A1 est symétrique définie positive. Montrer par
récurrence que toutes les matrices principales sont définies positives.
Exercice 7 : Soit la matrice
"
1
1
0
y=
"
X=
et le vecteur
-1 0
0 1
1 1
1
1
1
#
#
.
1. Calculer la décomposition en valeurs singulières (dvs) maigre de X (les valeurs
singulières de X étant classées par ordre décroissant). Puis la dvs pleine.
2. Quel est le rang de X? Expliciter le noyau de X. Ecrire la matrice de la projection
orthogonale sur Ker X, puis le vecteur projection de y sur Ker X.
3. Ecrire l’expression analytique du plan vectoriel Im X, l’expression de la matrice de
la projection orthogonale sur Im X, puis le vecteur projection de y sur Im X.
Chapter 3
Normes de Matrices
En Analyse Numérique, en Statistique et dans d’autres disciplines, les inconnues de certains problèmes sont des vecteurs ou des matrices. De nombreuses méthodes consistent à
construire un élément d’un sous espace vectoriel le plus proche d’un autre élément qui lui,
est connu. Il est donc nécessaire de savoir mesurer des distances entre vecteurs ou entre
matrices. Pour cela on peut définir une norme sur l’espace vectoriel auquel ils appartiennent. Les deux opérations suivantes vont permettre de définir des normes Euclidiennes
sur l’espace vectoriel des matrices.
3.1
Normes de vecteurs
Soit E un IK-espace vectoriel (IK est IR ou C).
I
Une norme sur E est une application k.k de E dans IR+ telle que
kxk = 0 ⇐⇒ x = 0E
kλxk = |λ| kxk
x ∈ E, λ ∈ IK
kx + yk ≤ kxk + kyk
x, y ∈ E .
Une norme définit une distance entre deux éléments de E par
d(x, y) = kx − yk.
51
Ainsi, la norme de x est la distance de x au vecteur nul
d(x, 0E ) = kxk.
3.1.1
Normes de Hölder
Lorsque E est de dimension finie, E = IK n , une norme de Hölder ou p-norme (p ≥ 1)
est définie par
kxkp =
Ã
n
X
i=1
|xi |p
!1/p
.
Les deux premiers axiomes sont évidents, on montre le troisième par une inégalité
dite de Hölder
¯ n
¯
¯X
¯
¯
¯
xi yi ¯ ≤ kxkp kykq
¯
¯
¯
1 1
+ = 1.
p q
i=1
Un cas particulier important est celui où p = q = 2 qui donne l’inégalité de CauchySchwarz.
Les 1, 2, ∞ normes sont les plus usuelles
n
X
kxk1 =
kxk2 =
Ã
i=1
n
X
i=1
|xi |
|xi |2
!1/2
kxk∞ = max |xi | .
i=1,n
La 2-norme est dite euclidienne car elle est associée à un produit scalaire < ., . > sur E,
kxk2 =
√
< x, x > .
La boule unité Bp = {x ∈ E | kxkp ≤ 1} est un compact (fermé, borné) de E dont
la frontière Sp = {x ∈ E | kxkp = 1} est la sphère unité. La boule unité ouverte est
l’ensemble des éléments de Bp qui n’appartiennent pas à Sp (≤ est remplacé par < dans
Bp ). Lorsque E = IR2 , la figure ci dessous représente les sphères unités S1 , S2 et S∞ .
1
Sinf
S2
S1
1
Figure 3 : sphère unité pour les p-normes usuelles, p = 1, p = 2 et p = +∞.
Toutes les normes de IK n sont équivalentes, c’est à dire si k . kα et k . kβ sont deux
normes il existe des constantes positives c1 et c2 telles que
c1 kxkα ≤ kxkβ ≤ c2 kxkα .
La relation précédente s’écrit
1
1
n( p − q ) kxkq ≤ kxkp ≤ kxkq
p > q ≥ 1.
Supposons que x
b est une approximation de x, pour une norme donnée on dit que
εabs = kx − x
bk
est l’erreur absolue tandis que, si x 6= 0
εrel =
est l’erreur relative. En particulier, si
kx − x
bk
kxk
kx − x
bk∞
≈ 10−p
kxk∞
alors la plus grande composante a approximativement p décimales correctes. On dit
qu’une suite {xk } de vecteurs converge vers x si
lim kxk − xk = 0 .
k→∞
Les normes sur IK n étant équivalentes, la notion de convergence ne dépend pas de la
norme choisie.
3.1.2
Généralisation de la norme Euclidienne, la M -norme
Il est possible d’utiliser des produits scalaires définis à partir de formes hermitiennes
définies positives, qui sont plus généraux que le produit scalaire usuel présenté dans
la section 1.10. En statistique en particulier, de tels produits scalaires sont utilisés
pour définir des normes, des notions d’orthogonalité et de projection plus adaptées aux
problèmes étudiés.
En
dimension
finie
E
=
C
In
(ou
IRn ),
la
donnée
d’une
matrice
M
hermitienne (symétrique) définie positive, appelée une métrique, permet de définir
un produit scalaire
< x, y >M = y ∗ M x = < M x, y >In .
La norme vectorielle euclidienne sur (E, M ) est définie par
kxkM =
√
< x, x >M =
√
x∗ M x .
Remarques :
R1 : Le produit scalaire usuel et la 2-norme vectorielle associée définis dans la section
1.10 correspondent à M = In c’est à dire à la métrique définie par la matrice identité.
R2 : (IRn , M ) est aussi l’espace affine d’origine o attaché à l’espace vectoriel (IR n , M ).
−→
−→
On définit pour deux points m1 et m2 , om1 = x, om2 = y, et la M -distance entre m1
et m2 par dM (m1 , m2 )2 = (y − x)0 M (y − x).
La sphère unité SM = {x ∈ E | x∗ M x = 1} est l’ensemble de niveau 1 de la forme
quadratique définie positive x → kxk2M = x∗ M x.
"
√ #
1
3 ) qui
5
√
Par exemple, la figure suivante montre la sphère unité de (IR 2 , M =
3 7
4
est une ellipse dont les axes principaux sont les vecteurs propres de M .
S
M
Figure 4 : sphère unité pour l’espace (IR2 , M ).
Dans le cas n = 2 réel, la ligne de niveau k d’une forme quadratique définie positive est
donc une ellipse de centre l’origine des coordonnées. Si la forme quadratique est semi
définie positive (rang M = 1), l’ensemble de niveau k est formé de 2 droites parallèles à
Ker M . Le graphe G = {(x, y = x0 M x) ∈ IR3 | x ∈ IR2 } est représenté selon le cas, par :
y
y
e3
e3
O
e1
O
e2
e2
x
e1
x2
x
x1
x2
x1
Figure 5 : graphe d’une forme quadratique définie positive puis semi définie positive de
(IR2 , M ).
L’orthogonalité au sens de M ou M -orthogonalité entre deux vecteurs s’écrit
< x, y >M = y ∗ M x = 0 .
3.2
Normes de matrices
L’analyse d’algorithmes matriciels nécessite souvent l’usage de normes matricielles. Par
exemple, telle méthode de résolution de systèmes linéaires pourra être peu performante
si la matrice des coefficients est proche de la singularité. D’autre part en statistique
exploratoire de données multivariées, il arrive que l’on désire approcher une matrice X
b de rang plus petit. On désire donc quantifier la notion de distance sur
par une matrice X
l’espace vectoriel des matrices de dimension n × p noté IK n×p .
Il ya deux façons de construire une norme de matrice: la “subordination” à une
norme vectorielle ou la “vectorisation” du tableau de nombres. La première fait appel
à l’application linéaire associée à la matrice. La seconde consiste à identifier les deux
espaces vectoriels IK n×p et IK np grâce à l’opérateur vec. Dans cette dernière approche,
nous n’étudierons que les normes Euclidiennes.
3.2.1
Normes subordonnées à des normes vectorielles
Généralités
Soient (E, k.kE ) et (F, k.kF ) deux IK espaces vectoriels normés de dimension quelconque
pas forcément finie. Soit f une application linéaire de E dans F
f (αx + βy) = αf (x) + βf (y)
α, β ∈ IK, x, y ∈ E .
Il est de plus grand intérêt de comparer kxkE et kf (x)kF .
Supposons x 6= 0E , et construisons le rapport
r(x) =
kf (x)kF
.
kxkE
Ce rapport est invariant par homothétie, r(λx) = r(x), λ ∈ IK − {0}.
Proposition :
Pour que l’application linéaire f de E dans F soit continue, il
faut et il suffit que r(x) soit majoré.
Proposition :
2
Sur L(E, k.kE ; F, k.kF ) espace vectoriel des applications linéaires
continues de (E, k.kE ) dans (F, k.kF ),
kf kE,F = sup
x6=0E
kf (x)kF
= sup kf (x)kF
kxkE
kxkE =1
est une norme dite subordonnée aux normes vectorielles k.kE et k.kF . Comme corollaire,
kf (x)kF ≤ kf kE,F kxkE
x∈E.
2
Normes matricielles subordonnées
Soient E = IK n et F = IK m munis de la même p-norme k.kp pour simplifier. A chaque
choix d’une base E = {ej }j=1,n pour E et d’une base F = {fi }i=1,m pour F , l’application
linéaire f est caractérisée par la matrice A = [ai j ] de dimensions m × n telle que
f (ej ) =
m
X
aij fi .
i=1
Les éléments de la jième colonne de A sont les composantes du vecteur f (ej ) dans F. Les
composantes du vecteur y = f (x) dans la base F sont calculées à partir des composantes
de x dans la base E par le produit matriciel
y = Ax .
Toute application linéaire f de IK n dans IK m munis de n’importe quelle norme, étant
continue, on définit
kAkp = sup
x6=0E
kAxkp
= sup kAxkp = kAb
xk p
kxkp
kxkp =1
pour un x
b de la sphère unité de IK n . On obtient la relation
x ∈ IK n .
kAxkp ≤ kAkp kxkp
Remarquons que la matrice identité est de p-norme égale à 1 quelle que soit la valeur de
p. On verra qu’il existe d’autres normes matricielles qui donnent des valeurs différentes.
Le calcul des normes p = 1 et p = ∞ est très simple
kAk1 = max
m
X
|aij |
kAk∞ = max
n
X
|aij | .
j=1...n
i=1...m
0
i=1
j=1
On vérifie immédiatement que kAk∞ = kA k1 . Le calcul de la 2-norme n’est pas aussi
explicite. Son calcul nécessite l’usage des propriétés des matrices hermitiennes.
La 2-norme subordonnée
Pour A ∈ C
I m×n , il s’agit de maximiser la quantité
r(x) =
kAxk2
.
kxk2
Un vecteur x ∈ C
I n se décompose sur la base orthonormée {v i } formée par les vecteurs
propres de A∗ A ordonnés par ordre décroissant des valeurs propres, λ1 ≥ . . . ≥ λn ≥ 0.
x=
n
X
xi v
i
∗
et
x =
i=1
n
X
xj v j∗ .
j=1
L’orthonormalité de la base choisie conduit à
P
λi |xi |2
2
≤ λ1 .
λn ≤ r(x) = Pi
2
i |xi |
Le maximum est réalisé pour x = v 1 , premier vecteur propre.
Pour résumer
kAk2 = µ1 =
p
ρ(A∗ A) ,
où µ1 est la plus grande valeur singulière de A et ρ(A∗ A) est le rayon spectral de A∗ A.
Si de plus, A est hermitienne, alors
kAk2 = ρ(A) .
3.2.2
Normes Euclidiennes par vectorisation
L’identification de IK m×n avec IK mn grâce à l’opérateur vec, permet de définir par vectorisation, des normes matricielles associées aux p-normes de Hölder. Cependant, nous
ne présenterons que le cas p = 2, Euclidien, qui conduit à la norme de Frobénius.
Norme de Frobénius
On a vu précédemment dans la propriété P2 de l’opérateur vec, que pour deux matrices
X et Y de C
I m×n ,
trace(Y ∗ X) =
Pn
j=1
Pm
i=1
y ij xij = vec∗ (Y )vec(X) =< vec(X), vec(Y ) >,
ce qui définit le produit scalaire usuel sur Mnp (I
C) par
< X, Y >= trace(Y ∗ X).
La norme de Frobénius de A ∈ C
I m×n est définie par
p
kAkF = trace(A∗ A) =
Ã
n X
m
X
j=1 i=1
|aij |
2
!1/2
=
Ã
n
X
j=1
kAj k22
!1/2
,
où Aj est la jième colonne de A.
On vérifie que cette norme Euclidienne n’est pas subordonnée à une norme vecto√
rielle car kIn kF = n alors que le résultat est 1 pour toute p-norme subordonnée.
L’inégalité de Cauchy-Schwarz s’écrit:
[trace(Y ∗ X)]2 ≤ trace(X ∗ X)trace(Y ∗ Y ); égalité si Y = kX.
La propriété P4 de la trace permet d’écrire, si rang(A) = r,
kAk2F
=
n
X
∗
λi (A A) =
kAk2 ≤ kAkF ≤
µ2i .
i=1
i=1
Il en résulte que
r
X
√
nkAk2 .
Comme conséquence, il vient
kAxk2 ≤ kAk2 kxk2 ≤ kAkF kxk2 .
On dit alors que la norme de Frobénius et la norme vectorielle euclidienne sont compatibles.
Norme de Hilbert-Schmidt
En analyse statistique des données on est ammené à définir des métriques sur chacun des espaces vectoriels associés aux lignes et aux colonnes d’une matrice réelle.
On définit le triplet (IRn×p , M, D) par la donnée de
IRn×p espace vectoriel des matrices réelles n × p,
M métrique Euclidienne sur l’espace IRp des lignes,
D métrique Euclidienne sur l’espace IRn des colonnes.
D’après P11, M ⊗ D est une métrique sur IRnp et d’autre part,
trace(Y 0 DXM ) = vec0 (Y )(M ⊗ D)vec(X) =< vec(X), vec(Y ) >M ⊗D .
Le produit scalaire de Hilbert-Schmidt associé au triplet (IR n×p , M, D) est obtenu par
identification de ce triplet à l’e.v. Euclidien (IR np , M ⊗ D). Il est défini par
< X, Y >M ⊗D = trace(Y 0 DXM ).
La norme de Hilbert-Schmidt associée est alors
p
kXkM ⊗D = trace(X 0 DXM ).
De façon symétrique, kXkM ⊗D =
Cas particuliers
p
trace(XM X 0 D) = kX 0 kD⊗M .
• (IRn×p , M = Ip , D = In ). Alors, M ⊗ D = Inp .
On retrouve les produits scalaires usuels et la norme de Frobénius de X,
kXk2Ip ⊗In = trace(X 0 X) = kXk2F .
• (IRn×p , M = Ip , D). La structure de M ⊗ D est bloc-diagonale, chaque bloc étant
D.
Dans ce cas, le carré de la norme de X s’exprime comme la somme des carrés des
D-normes des colonnes X i ,
kXk2Ip ⊗D = trace(X 0 DX) =
Pp
i=1
kX i k2D .
• (ES , D, D), où ES est le s.e.v. de IRn×n formé des matrices symétriques. Alors,
kXk2D⊗D = trace((XD)2 ).
Remarque
kXk2M ⊗D = kD1/2 XM 1/2 k2F
On retrouve la norme Euclidienne usuelle des matrices par transformation des lignes et
des colonnes.
3.2.3
Normes matricielles sous multiplicatives
Les normes matricielles considérées ont été déduites des normes vectorielles soit par
subordination soit par vectorisation. Ces normes sont construites sur l’espace vectoriel
des matrices rectangulaires, c’est à dire que seules les opérations + et multiplication
par un scalaire sont définies. Cependant une autre opération joue un rôle fondamental:
la multiplication entre matrices. Que peut-on dire de la norme d’un produit AB? La
définition et la proposition suivantes permettent de répondre à cette question.
Une norme matricielle est dite sous multiplicative si
∀A ∈ C
I m×n , ∀B ∈ C
I n×p .
kABk ≤ kAkkBk
Proposition :
La norme de Frobénius ainsi que toute p-norme sont des normes
sous multiplicatives.
2
(Preuve en exercice).
Remarquons que l’on peut construire des contre-exemples. Ainsi la norme non subordonnée kAk∆ = max |aij | (vérifier que c’est une norme obtenue par vectorisation)
i,j
appliquée à
A=
"
1 1
1 1
#
donne kABk∆ > kAk∆ kBk∆ .
Proposition : A toute norme matricielle sous multiplicative on peut toujours associer
une norme vectorielle qui lui soit compatible.
Preuve :
2
Soit kAk une norme matricielle de la matrice A.
Pour une ma-
trice B telle que le produit AB existe on a kABk ≤ kAkkBk.
x associons la matrice X
première égale à x.
=
A un vecteur
[x, 0, . . . , 0] où les colonnes sont nulles sauf la
Il est clair que kxk = kXk est une norme vectorielle.
kAxk = k[Ax, 0, . . . , 0]k = kAXk ≤ kAkkXk = kAkkxk.
Donc,
2
Proposition : Quelle que soit la norme matricielle k.k sous multiplicative, pour une
matrice carrée A on a
ρ(A) ≤ kAk .
2
Preuve : Pour le vecteur Au = λu, on choisit une norme vectorielle compatible et
|λ| kuk = kλ uk = kAuk ≤ kAkkuk .
Quelle que soit la valeur propre, |λ| ≤ kAk, ce qui achève la preuve
2.
Conséquence : Si A est hermitienne, la 2-norme est la plus petite des normes de A sous
multiplicatives.
3.2.4
Normes unitairement invariantes
Dans la section 1.11 la notion de matrice unitaire (orthogonale, dans le cas réel) a déjà
été exposée dans le cadre du produit scalaire usuel. Si l’on dispose d’un M -produit
scalaire, la définition de matrices M -unitaires est immédiate.
Une matrice U de C
I m×n (m ≥ n), C
I m étant muni de la métrique euclidienne M , est
M -unitaire si les colonnes de U sont des vecteurs 2 à 2 M -orthogonaux et de M -norme
unité, c’est à dire si
U ∗ M U = In .
Lorsque U et M sont à coefficients réels ont dit que U est M -orthogonale, dans ce cas
U 0 M U = In .
Une matrice est unitaire (orthogonale) si M = Im .
Les normes Euclidiennes ne changent pas lorsque la matrice concernée est multipliée par une matrice orthogonale ou unitaire.
Normes unitairement invariantes :
Voici la suite des propriétés P1, P2 et P3 concernant les matrices unitaires définies dans
la section 1.11 :
P4 : La norme vectorielle Euclidienne est unitairement invariante
kU xk2 = kxk2 ,
∀U unitaire.
P5 : Pour les M - normes vectorielles, on obtient
kU xkM = kxk2 ,
∀U M -unitaire.
P6 : La 2-norme et la norme de Frobénius sont des normes matricielles invariantes par
transformation unitaire.
kU AV k = kAk,
3.3
∀U, V unitaires, V carrée.
Suites de matrices
Comme pour les suites de vecteurs, en considérant l’ensemble C
I m×n comme un espace
vectoriel de dimension mn, la convergence d’une suite de matrices est indépendante de la
norme choisie. Elle équivaut à la convergence des mn suites de scalaires formées par les
éléments des matrices. Le théorème suivant donne les conditions nécessaires et suffisantes
pour que la suite des puissances d’une matrice carrée donnée converge vers la matrice
nulle. Le deuxième théorème concerne la convergence de la série géométrique de matrices
carrées.
Proposition : Soit B une matrice carrée. Les conditions suivantes sont équivalentes.
lim B k = 0.
(i)
k→∞
lim B k v = 0
(ii)
k→∞
pour tout vecteur v.
(iii)
ρ(B) < 1.
(iv)
kBk < 1 pour au moins une norme matricielle subordonnée k.k.
2
Proposition : La série I + B + B 2 + . . . converge vers (I − B)−1 ssi
ρ(B) < 1 .
3.4
2
Conditionnement d’une matrice
En analyse numérique matricielle ainsi qu’en statistique, les données sont généralement
entachées d’erreurs et parfois une légère perturbation sur les données peut entrainer une
grande perturbation sur la solution du problème considéré.
Prenons l’exemple dû à R.S. Wilson du système linéaire
 



x1
10 7 8 7
32
 7 5 6 5   x2   23 
de solution
 8 6 10 9   x  =  33 
3
x4
7 5 9 10
31


1
 1 
 1 .
1
Si l’on perturbe légèrement le second membre b d’une erreur relative de l’ordre de
1/200 pour obtenir b = [32.1, 22.9, 33.1, 30.9]0 , alors, la solution du nouveau système
devient x = [9.2, −12.6, 4.5, −1.1]0 !! Bien que la matrice A du système soit inversible
(dét(A) = 1), c’est à dire bien que ses vecteurs colonnes soient linéairement indépendants,
cependant, les colonnes de A sont deux à deux presque colinéaires. Le statisticien mesure
cette notion par la proximité à 1 ou à -1 du coefficient de corrélation linéaire r. Le
coefficient r entre A1 et A2 est de 0.985. Il est de 0.90 entre A3 et A4 . Cette colinéarité
quasi parfaite confère à la solution du système linéaire une forte instabilité numérique vis
à vis de petites perturbations des données. Cette notion est mesurée numériquement par
le conditionnement d’une matrice inversible :
soit k.k une norme matricielle, le conditionnement de A régulière associé à cette norme,
est le nombre
Propriétés :
cond(A) = kAkkA−1 k.
P1 : cond(A−1 ) = cond(A) et cond(αA) = cond(A).
P2 : cond(A) ≥ 1 si le conditionnement est calculé pour une norme sous multiplicative.
µ1
où µ1 et µn sont respectivement la plus grande et la plus petite
µn
des valeurs singulières de A.
P3 : cond2 (A) =
P4 : cond2 (A) = 1 ssi A = αQ où α est un scalaire et Q est une matrice unitaire.
Dans les propriétés 3 et 4 on note condp le conditionnement associé à la p-norme
matricielle.
Remarque : on dira qu’une matrice est bien conditionnée si son conditionnement
n’est pas beaucoup plus grand que 1. La propriété 4 montre que les matrices unitaires
sont les mieux conditionnées possibles. En analyse numérique comme en statistique on
utilisera le plus possible des systèmes de vecteurs orthonormés.
Proposition : Soit A une matrice inversible.
Soient x et x + ∆x les solutions
des systèmes linéaires
Ax = b
On a
et
A(x + ∆x) = b + ∆b .
k∆bk
k∆xk
≤ cond(A)
.
kxk
kbk
2
Proposition : Soit A une matrice inversible. Soient x et x+∆x les solutions des systèmes
linéaires
Ax = b
On a
3.5
et
(A + ∆A)(x + ∆x) = b .
k∆xk
k∆Ak
≤ cond(A)
.
kx + ∆xk
kAk
2
Exercices
Exercice 1 : Soit E = IR2 muni de la métrique euclidienne M dans la base canonique
{e1 , e2 }
1
M=
4
"
5
√
3
√ #
3
7
.
Vérifier que M est une métrique euclidienne. Calculer les axes principaux de la sphère
unité
BM = {x ∈ E | x0 M x = 1} .
Indications : Faire un changement de repère de telle faon que dans le nouveau repère
{u1 , u2 }, l’équation de BM soit de la forme
y12 y22
+
= 1.
a2 b 2
On poura aussi bien poser le problème sous forme d’un problème d’optimisation du carré
de la norme euclidienne usuelle avec contrainte de type égalité.
Exercice 2 : Montrer que la norme de Frobénius est sous multiplicative ainsi que
toute p norme subordonnée.
Chapter 4
Inverses Généralisés, Projecteurs
M -Orthogonaux
Lorsque les colonnes (lignes) d’une matrice carrée A sont linéairement indépendantes,
l’inverse A−1 de A est définie par A−1 A = AA−1 = I. Si A est inversible, alors le système
linéaire
Ax = y
dit de Cramer, admet une solution unique x
b = A−1 y.
(∗)
Même lorsque A n’est pas
carrée, le système (*) admet une solution pas forcément unique, si y appartient à
l’espace vectoriel Im A engendré par les colonnes de A. La notion d’inverse généralisé
d’une matrice rectangulaire permet de construire de telles solutions.
On supposera
maitenant que toutes les matrices sont réelles car résoudre un système linéaire sur C
I
revient à résoudre deux sytèmes linéaires sur IR associés aux parties réelles et imaginaires.
4.1
Inverses Généralisés
4.1.1
Définition et propriétés
Soit A une matrice n × p, A− inverse généralisé de A, est une matrice p × n telle que
Définition 1 :
Définition 2 :
x
b = A− y est solution de Ax = y, ∀ y ∈ ImA.
AA− A = A.
Equivalence des définitions
67
Définition 2 ⇒ Définition 1
AA− A = A ⇒ AA− Ax = Ax
AA− y = y , ∀ y = Ax (*)
−
A y est sol. de (*)
Définition 1 ⇒ Définition 2
Soit y = Ai une colonne de A , y ∈ ImA
AA− Ai = Ai ,
−
AA A = A.
2
2
∀i
Construction et non unicité d’un inverse
Soit A une matrice n × p telle que rang(A) = r. D’après la DVS 2, ∃P, Q orthogonales
telles que P P 0 = P 0 P = In , QQ0 = Q0 Q = Ip et
#
" 1/2
0
Λr
Q0 .
A=P
0 0
" 1/2
#
" 1/2
#
" 1/2
#
Λr
0
Λ
0
Λ
0
r
r
AXA = A ⇐⇒ P
Q0 XP
Q0 = P
Q0 .
0 0
0 0
0 0
Multipliant à gauche et à droite par P 0 et Q respectivement,
" 1/2
#
" 1/2
# " 1/2
#
Λr
0
Λ
0
Λ
0
r
r
Q0 XP
=
.
0 0
0 0
0 0
#
"
T
T
11
12
−1/2
, AXA = A ⇔ T11 = Λr
En décomposant par blocs, Q0 XP =
T21 T22
T12 , T21 , T22 arbitraires. Alors,
A− = Q
"
−1/2
Λr
T21
T12
T22
#
P0 ,
avec T12 , T21 , T22 arbitraires et on n’a pas l’unicité de l’inverse.
2
Quelques propriétés de A−
P1 : rang(A− ) ≥ rang(A).
P2 : Si A est carrée
alors
A− = A−1#.
#
"
" 1/2inversible
#
" −1/2
1/2
I
Λ
T
Λ
0
Λ
T
r
r
r
r
12
12
P 0,
P0 = P
Q0 Q
P3 : AA− = P
0
0
T21 T22
0 0
et AA− est idempotente car (AA− )2 = AA− .
"
#
I
0
r
P4 : A− A = Q
Q0 et A− A est idempotente.
1/2
T21 Λr
0
P5 : rang(A) = rang(AA− ) = rang(A− A).
P6 : A = A(A0 A)− A0 A.
et
En effet, d’après la définition 2, A0 A(A0 A)− A0 A = A0 A.
On conclut en utilisant A0 AB = A0 AC ⇔ AB = AC.
P7 : Le projecteur orthogonal sur Im A
PA = A(A0 A)− A0 , matrice symétrique idempotente est la matrice de projection
orthogonale sur Im A, invariante quel que soit l’inverse généralisé utilisé. Soit
1/2
A = U Λr V 0 = P ΛQ0 la DVS de A, alors
PA = A(A0 A)− A0 = U U 0 = P
"
Ir 0
0 0
#
P −1 .
2
PA2 = A(A0 A)− A0 A(A0 A)− A0 = A(A0 A)− A0 = PA , d’après P6.
On sait que PA PA0 = A(A0 A)− A0 A[(A0 A)− ]0 A0 = PA0 d’après P6.
En transposant PA = PA PA0 = PA0 et PA est symétrique.
0
Soient P1 = A(A0 A)−
1 A , P1 A = A,
0
et P2 = A(A0 A)−
2 A , P2 A = A.
− 0
0
0
0
Donc P1 A = P2 A ⇔ A0 P1 = A0 P2 ⇔ A0 A(A0 A)−
1 A = A A(A A)2 A
et PA est invariant quelque soit l’inverse généralisé utilisé car
− 0
0
0
P1 = A(A0 A)−
1 A = A(A A)2 A = P2 .
Enfin, PA A = A d’après P6, ce qui montre que PA est le projecteur sur Im A.
De plus, un inverse généralisé de A0 A s’écrit
0
−
(A A) = Q
"
Λ−1
T12
r
0
T12
T22
#
Q0
ce qui implique
PA = P
"
Ir 0
0 0
#
P 0 = U U 0.
2
P8 : Soit A− un inverse généralisé de A. Une solution générale du système homogène
Ax = 0 est :
x = (I − A− A)u,
pour u arbitraire.
P9 : Soit A− un inverse généralisé de A et y ∈ Im A. Une solution générale du système
Ax=y est :
−
x = A− y + (I − A− A)u,
pour u arbitraire.
P10 : Si A est un inverse généralisé de A, un inverse généralisé quelconque s’écrit
G = A− + U − A− AU AA− ,
G = A− + V (I − AA− ) + (I − A− A)W ,
pour U , V , W arbitraires.
4.1.2
Inverse de Moore-Penrose
A− n’étant pas unique, on construit une matrice inverse particulière appelée inverse de
Moore-Penrose qui possède de “bonnes” propriétés.
Soit A une matrice n × p, A+ , inverse de Moore-Penrose de A, est une matrice p × n
vérifiant les propriétés suivantes
D1 : AA+ A = A.
D2 : A+ AA+ = A+ .
D3 : (AA+ )0 = AA+ .
D4 : (A+ A)0 = A+ A.
Construction de l’inverse
Soit A une matrice n × p telle que rang(A) = r. D’après la DVS 1, ∃U, V orthogonales
1/2
1/2
telles que A = U Λr V 0 où U 0 U = V 0 V = Ir et Λr
−1/2
A+ = V Λ r
= diag{µ1 , ..., µr } avec µi > 0. D’où
U 0,
vérifie les axiomes D1, D2, D3 et D4.
Unicité de l’inverse
+
+
+
+
+
+ 0
Soit A+
1 et A2 , deux matrices inverses. D’après D2 et D3, A1 = A1 AA1 = A1 (AA1 ) ,
+
+ 0 0
+
+ 0
+
0
A+
1 = A1 (A1 ) A = A1 (A1 ) (AA2 A) par D1
+
+ 0 0
+ 0
+
+ 0 0
+
+
+ 0
+
+
+
+
A+
1 = A1 (A1 ) A (AA2 ) = A1 (A1 ) A AA2 = A1 (AA1 ) AA2 = A1 AA1 AA2 par D3
+
+
A+
1 = A1 AA2 par D1.
+
+
+
0 +
De même, A+
2 = A2 AA2 = (A2 A) A2 par D2 et D4
+
+
+
+
0 +
0
0 +
A+
2 = (A2 AA1 A) A2 = (A1 A) (A2 A) A2 par D1
+
+
+
+
+
A+
2 = A1 AA2 AA2 = A1 AA2 par D4 et D2.
L’inverse de Moore-Penrose est donc unique.
2
Propriétés de A+
P0 : Si A = kB alors A+ = k −1 B + avec k ∈ IR∗ .
P1 : A+ = A−1 si A est inversible.
P2 : (A+ )+ = A.
P3 : (A0 )+ = (A+ )0 .
P4 : Si A est une matrice symétrique et idempotente alors A+ = A.
P5 : AA+ et A+ A matrices symétriques sont idempotentes. Ce sont les projecteurs or1/2
thogonaux respectivement sur Im A et sur Im A0 = {Ker A}⊥ . Soit A = U Λr V 0
la DVS maigre de A, alors AA+ = U U 0 et A+ A = V V 0 .
P6 : A, A+ , AA+ et A+ A sont des matrices de même rang.
P7 : A0 = A0 AA+ = A+ AA0 .
P8 : A+ = A0 (A+ )0 A+ = A+ (A+ )0 A0 .
P9 : (A0 A)+ = A+ (A+ )0 ,
(AA0 )+ = (A+ )0 A+ .
P10 : A = A(A0 A)+ A0 A = AA0 (AA0 )+ A.
P11 : A+ = (A0 A)+ A0 = A0 (AA0 )+ .
P12 : Si A est une matrice de plein rang colonne, alors A+ = (A0 A)−1 A0 .
P13 : Si A est une matrice de plein rang ligne, alors A+ = A0 (AA0 )−1 .
P14 : A = 0 ⇐⇒ A+ = 0.
P15 : AB = 0 ⇐⇒ B + A+ = 0.
P16 : A+ B = 0 ⇐⇒ A0 B = 0.
P17 : (A ⊗ B)+ = A+ ⊗ B + .
P18 : Si y ∈ ImA, la solution de norme euclidienne minimum de Ax = y, est x̂ = A+ y.
P19 : A0 AB = A0 C ⇐⇒ AB = AA+ C.
P20 : Soient A n × p, B n × r, C p × r telles que rang(A) = rang(B) = rang(C) = r
et
A = BC 0 , alors A+ = (C + )0 B + = C(C 0 C)−1 (B 0 B)−1 B 0 .
4.2
Projecteurs M -orthogonaux
On a vu au chapitre 2 que P est un projecteur si P 2 = P (idempotence) et un projecteur
orthogonal au sens du produit scalaire usuel si P est de plus, symétrique. De plus,
1/2
la DVS maigre de A = U Λr V 0 permet de définir PA = U U 0 comme la matrice de
projection orthogonale sur l’espace engendré par les colonnes de A. Ce projecteur s’écrit
aussi PA = A(A0 A)− A0 = AA+ grce aux inverses généralisés.
En
statistique,
différents
du
on
est
produit
souvent
scalaire
amené
usuel
et
à
définir
basés
des
sur
produits
des
M est une matrice symétrique définie positive, différentes de l’identité
< x, y >M = y 0 M x
et
kxk2M = x0 M x.
scalaires
métriques
M,
Soit l’espace vectoriel euclidien IE = IRm muni d’un M -produit scalaire et soit IE1 un
s.e.v. de IE tel que IE = IE1 ⊕ IE1⊥ où IE1⊥ = {y ∈ IE | < y, x >M = 0 , x ∈ IE1 }. Pour
tout x de IE la décomposition
x = x1 + y1 , x1 ∈ IE1 , y1 ∈ IE1⊥
est unique. P est un projecteur M -orthogonal sur IE1 ssi
P x = x1
(I − P )x = y1 .
La notion de M -orthogonalité est liée à une notion de symétrie particulière, la M symétrie, plus générale que la symétrie usuelle des matrices.
Un matrice A ∈ IRm×m est M -symétrique si
M A = A0 M ,
c’est à dire si M A est symétrique (car M est symétrique).
Pour α réel non nul, une matrice (α Im )-symétrique est symétrique au sens usuel.
Propriété caractéristique d’un projecteur M -orthogonal
Proposition :
symétrique.
Un projecteur P est un projecteur M -orthogonal ssi P est M -
2
Preuve : Soit P un projecteur (P 2 = P ) sur IE1 tel que
∀x, y ∈ IE,
P x ∈ IE1 ,
(I − P )y ∈ IE1⊥ au sens de M .
c’est à dire, x0 P 0 M (I − P )y = 0 ⇐⇒ P 0 M (I − P ) = 0 ⇐⇒ P 0 M = P 0 M P.
Puique M est symétrique, P 0 M est aussi symétrique, P 0 M = M P .
4.2.1
2
Projecteur M -orthogonal sur Im A
Proposition : Soit A ∈ IRm×n et M une métrique sur IRm , PA projecteur M -orthogonal
sur l’espace Im A engendré par les colonnes de A, est la matrice m × m
PA = A(A0 M A)− A0 M .
Ce projecteur est unique quel que soit le choix de l’inverse généralisé.
2
Preuve : Soit x ∈ IRm décomposé en x = x1 + x2 sur Im A ⊕ {Im A}⊥ . Multipliant à
gauche par A0 M ,
A0 M x = A0 M x1 + A0 M x2 = A0 M x1 = A0 M A β.
Le système linéaire
A0 M A β = A 0 M x
admet des solutions puisque Im A0 M A = Im A0 M = Im A0 . Pour un choix d’inverse
généralisé,
β = (A0 M A)− A0 M x
ce qui donne
x1 = A β = A(A0 M A)− A0 M x
PA = A(A0 M A)− A0 M .
et
Pour montrer l’unicité, décomposons M par Cholesky, M = T 0 T , et posons B = T A. T
triangulaire supérieure est inversible et A = T −1 B. Alors PA = T −1 B(B 0 B)− B 0 T . La
décomposition de Cholesky est unique et B(B 0 B)− B 0 ne dépend pas de l’inverse généralisé
choisi (propriété P7 des inverses généralisés).
2
Conséquence : Dans la pratique, l’écriture du projecteur utilise l’inverse de MoorePenrose PA = A(A0 M A)+ A0 M et, lorsque A est de plein rang colonne PA =
A(A0 M A)−1 A0 M .
Cas particulier 1 :
M = α I, où α est un réel positif.
Pour tout α positif, le projecteur est le projecteur orthogonal usuel A(A 0 A)− A0 =
A(A0 A)+ A0 = AA+ .
Cas particulier 2 : Les colonnes de A sont M -orthogonales
A0 M A = diag(kA1 k2M , . . . , kAn k2M ) .
Dans ce cas ImA est de dimension n supposé plus petit que m. Le projecteur sur ImA
se décompose en la somme des projecteurs sur chacun des vecteurs de la base A1 , . . . , An
y
Théorème des 3 perpendiculaires (n=2)
y = PA1 y
1
y2 = PA2 y
A2
y2
^
y= y1+ y 2
y
1
A1
Im A
Figure 6 : Théorème des 3 perpendiculaires de la géométrie Euclidienne (n = 2).
PA =
n
X
i=1
P Ai ,
où PAi = Ai Ai 0 M/kAi k2M . Si de plus la base est M -orthonormée, c’est à dire si A est M -
orthogonale, alors PAi = Ai Ai 0 M . L’orthogonalité des colonnes de A donne kPA yk2M =
Pn
2
i=1 kPAi ykM .
P
Lorsque y ∈ Im A, kyk2M = ni=1 kPAi yk2M , c’est le cas en particulier lorsque la matrice
A est carrée (les colonnes de A forment une base de l’espace tout entier).
Eléments propres du projecteur M -orthogonal sur Im A
Proposition : La matrice PA = A(A0 M A)− A0 M est diagonalisable, ses valeurs propres
sont 0 ou 1 et ses vecteurs propres sont M -orthonormés. De plus,
trace(PA )= rang(A) = rang(PA ).
2
Preuve : PA est M -symétrique (M PA = PA0 M ). On ne peut pas appliquer directement
les propriétés des matrices symétriques. Utilisons la décomposition M = M 1/2 M 1/2 (on
peut aussi utiliser Cholesky) et posons B = M 1/2 A dont le rang est celui de A. La DVS de
1/2
B = U Λr V 0 = P ΛQ0 et la propriété P7 des inverses généralisés appliquée à B donnent
"
#
I
0
r
PA = M −1/2 P
P −1 M 1/2 = M −1/2 U U 0 M 1/2 .
0 0
Les vecteurs propres de PA sont les colonnes de M −1/2 P qui sont M -orthonormées.
4.2.2
2
Un problème aux moindres carrés
Si A est une matrice réelle m × n (m ≥ n) et y ∈ IRm , le système linéaire Ax = y n’a pas
nécessairement de solution. Pour qu’il existe une solution il faut que y ∈ Im A. On peut
toujours se poser le problème de chercher x
b ∈ IRn tel que
kAb
x − yk2M = minn kAx − yk2M .
(∗)
x∈IR
Ce problème sécrit comme la recherche de l’élément yb = Ab
x de ImA le plus proche de y
au sens de la norme k.kM .
kb
y − yk2M = min kv − yk2M .
(∗)
v∈ImA
Proposition : Une solution du problème aux moindres carrés (*) est donnée par
x
b = (A0 M A)+ A0 M y.
La solution est unique si rang(A) = n. Si la solution n’est pas unique, toute solution
s’écrit x = x
b + u avec u ∈ Ker (A0 M A) = Ker A. L’approximation yb = Ax = Ab
x = PA y
de y est unique, c’est la projection M -orthogonale de y sur Im A.
2
y
^
e=y-y
0
Im A
^
^
y =A x
Figure 7 : solution du problème aux moindres carrés, yb = PA y.
Preuve : Notons
ϕ(x) = kAx − yk2M
la fonction à minimiser dite fonction objectif. C’est une fonction de IR n dans IR+ , c’est à
dire une fonction numérique des n variables [x1 , . . . , xn ]0 = x.
ϕ(x) = (Ax − y)0 M (Ax − y) = x0 A0 M Ax − 2y 0 M Ax + y 0 M y .
Cette fonction est une fonction quadratique différentiable sur IR n . Les équations aux
dérivées partielles dites équations normales fournissent les points stationnaires
∇ϕ(x) = 2A0 M Ax − 2A0 M y = 0IRn ,
où ∇ϕ(x) est le vecteur gradient de ϕ calculé en x. Une solution x du système précédent
est un minimum local si la dérivée seconde, la matrice Hessien Hϕ(x), calculée en x est
semi définie positive dans un voisinage de x. C’est bien le cas,
Hϕ(x) = 2A0 M A
est constante indépendante de x. C’est une matrice symétrique semi définie positive.
Pour obtenir un minimum, il faut donc résoudre le système linéaire
A0 M A x = A 0 M y .
Si la matrice A0 M A n × n est inversible, c’est à dire si rang(A) = rang(A0 ) = n, alors il
y a une seule solution
x
b = (A0 M A)−1 A0 M y.
Dans le cas contraire, le système admet une infinité de solutions car le second membre
appartient à Im A0 et puisque M est régulière Im A0 = Im A0 M A. Plutôt que d’écrire les
solutions en utilisant un inverse généralisé (A0 M A)− on préfère construire une solution
x
b = (A0 M A)+ A0 M y.
Soit x une autre solution des équations normales, alors
A0 M A(x − x
b) = 0IRn
et
x=x
b + u, avec u ∈ Ker (A0 M A).
Puisque M est symétrique définie positive, en décomposant M par Cholesky ou par M =
(M 1/2 )2 , on montre aisément que Ker (A0 M A) = Ker A. Alors, qu’il y ait unicité ou non,
l’approximation de y par yb
x = PA y,
yb = Ax = Ab
où PA est le projecteur M -orthogonal sur Im A, est unique.
Un façon de mesurer la qualité de l’approximation est fournie par l’indice
R2 (y ; ImA) =
kb
y k2M
kyk2M
appelé “coefficient de détermination” entre y et ImA. On le note R 2 pour simplifier.
C’est le carré du M -cosinus du M -angle formé par les vecteurs y et yb.
R2 = 1
R2 = 0
⇐⇒
⇐⇒
y = yb
yb = 0
⇐⇒
⇐⇒
y ∈ Im A.
y ∈ {Im A}⊥ .
2
Propriétés du projeté yb = PA y = Ab
x
P1 e = y − yb ∈ {Im A}⊥ , c’est à dire < y − yb, u >M = 0 ,
∀u ∈ Im A.
P2 kyk2M = ky − ybk2M + kb
y k2M . C’est le théorème de Pythagore.
P3 kPA ykM ≤ kykM ,
est contractante.
4.3
∀y ∈ IRm , ou 0 ≤ R2 ≤ 1. On dit que l’application linéaire PA
Exercices
Exercice 1 : Soit l’espace vectoriel euclidien (IRp , Ip ) et E le s.e.v. engendré par les deux
vecteurs 1Ip = (1, . . . , 1)0 et (1, 2, . . . , p)0 . Calculer la matrice du projecteur orthogonal sur
E.
Exercice 2 : Soit E = {(y1 , . . . , y2n ) ∈ IR2n | yt = yt+2 , 1 ≤ t ≤ 2n − 2}.
a. Montrer que E est un s.e.v. de IR2n . Quelle est sa dimension?
b. On munit IR2n de la métrique identité. Soit x ∈ IR2n , calculer
ŷ = arg min kx − yk22 .
y∈E
Chapter 5
Dérivation Matricielle
5.1
Introduction
Dans de nombreux domaines d’application de l’analyse numérique et de la statistique
comme l’économétrie, la chimiométrie, etc, on est amené à résoudre des problèmes du
type
min ϕ(X)
X
où la fonction à minimiser est une fonction numérique qui a pour argument une matrice
X. Il est alors commode d’utiliser les outils de vectorisation pour tenter de résoudre le
problème lorsque ϕ est différentiable. L’objectif de cette section n’est pas de proposer un
cours de calcul différentiel ou d’optimisation mais seulement d’examiner le rôle joué par
les opérateurs vec et ⊗, étudiés dans le chapitre 1, pour le calcul pratique des dérivées de
fonctions matricielles lors de la résolution de certains problèmes d’optimisation.
5.2
5.2.1
Dérivation matricielle
Matrices Jacobiennes
Classification des fonctions et des variables
Les fonctions scalaires ou numériques sont notées φ.
Les fonctions vectorielles sont notées f .
Les fonctions matricielles sont notées F .
Les variables réelles sont notées ξ.
Les variables vectorielles sont notées x.
77
Les variables matricielles sont notées X.
Variables numériques vectorielles matricielles
Fonctions
numériques
vectorielles
matricielles
φ(ξ)
f (ξ)
F (ξ)
φ(x)
f (x)
F (x)
φ(X)
f (X)
F (X)
Exemples
φ(ξ) = ξ 2
"
f (ξ) =
F (ξ) =
"
ξ
ξ2
#
cos(ξ) − sin(ξ)
sin(ξ)
cos(ξ)
φ(x) = a0 x
#
φ(X) = a0 Xa
f (x) = Ax
f (X) = Xa
F (x) = xx0
F (X) = X −1 .
Matrices Jacobiennes de fonctions différentiables
• Soit φ : x −→ φ(x), une fonction numérique différentiable de IR n dans IR. La dérivée
Dφ(x) ou matrice Jacobienne s’écrit
Dφ(x) = [D1 φ(x), . . . , Dn φ(x)] =
c’est le vecteur ligne 1 × n tel que
dφ = Dφ(x) dx =
n
X
∂φ(x)
∂x0
Di φ(x)dxi .
i=1
Le gradient de φ en x est le vecteur colonne transposé de Dφ(x)
∇φ(x) = (Dφ(x))0 .
• Soit f une fonction vectorielle différentiable de IRn dans IRm , c’est-à-dire


φ1 (x)


..
.
x 7−→ f (x) = 
.


φm (x)
La dérivée de f où matrice Jacobienne est la matrice d’ordre m × n


D1 φ1 (x) · · · Dn φ1 (x)


∂f (x)
..
..
...


Df (x) =
=
.
.


∂x0
D1 φm (x) · · · Dn φm (x)
telle que
df = Df (x)dx,
où df = [dφ1 , . . . , dφm ]0 .
• Soit F une fonction matricielle différentiable de IRn×q dans IRm×p ,


φ11 (X) · · · φ1p (X)
..
..
...

X = [xij ] −→ F (X) = 
.
.
φm1 (X) · · · φmp (X)
la matrice Jacobienne de F en X est la matrice d’ordre mp × nq

D11 φ11 (X) · · · Dnq φ11 (X)
..
..
...

.
.

 D11 φm1 (X) · · · Dnq φm1 (X)

..
..
...
DF (X) = 
.
.

 D11 φ1p (X) · · · Dnq φ1p (X)

..
..
...

.
.
D11 φmp (X) · · · Dnq φmp (X)
où Dij φkl (X) =










∂φkl (X)
. On la note
∂xij
. ∂vec(F (X))
DF (X) =
.
∂vec0 (X)
Le théorème d’identification pour les fonctions matricielles différentiables donne
⇐⇒
d vec(F (X)) = A(X) d vec(X)
A(X) = DF (X).
Formulaire

dx11 · · · dx1p
.
.. 
...
.
X = [xij ] n × p, d X =  ..
.
dxn1 · · · dxnp

d C ste = 0.
d (X + Y ) = d X + d Y.
d (α X) = α d X.
d (X 0 ) = (d X)0 .
d (trace(X)) = trace(d X).
d (vec(X)) = vec(d X).
d (XY ) = (d X)Y + X(d Y ).
d (X ⊗ Y ) = ((dX) ⊗ Y ) + (X ⊗ (d Y )).
Tableau d’identification
fonctions
différentielles
matrices
ordre de D
autres notations
Jacobiennes
φ(ξ)
dφ = αdξ
Dφ(ξ) = α
1×1
φ(x)
dφ = a0 dx
Dφ(x) = a0
1×n
φ(X)
dφ = vec0 (A)dvec(X)
Dφ(X) = vec0 (A)
1 × nq
m×1
= trace(A0 dX)
f (ξ)
df = adξ
Df (ξ) = a
f (x)
df = Adx
Df (x) = A
f (X)
df = Advec(X)
Df (X) = A
m × nq
F (ξ)
dvec(F ) = vec(A)dξ
DF (ξ) = vec(A)
mp × 1
F (x)
dvec(F ) = Adx
DF (x) = A
mp × n
F (X)
dvec(F ) = Advec(X)
DF (X) = A
mp × nq
∇φ(x) = a
∂φ(X)
=A n×q
∂X
m×n
d F (ξ)
=A m×p
dξ
Remarque : Dans deux cas particuliers on réorganise les dérivées partielles
q
n X
X
∂φ (X)
∂φ (X) 0
dxij = trace((
) dX).
∗ Soit φ(X) avec X = [xij ] n × q, alors dφ =
∂xij
∂X
i=1 j=1
¸
·
∂φ (X)
∂φ (X)
n × q.
=
∂X
∂xij
∗ Soit F (ξ) avec F (ξ) = [Fij (ξ)] qui est d’ordre m × p
·
¸
d F (ξ)
d Fij (ξ)
=
.
dξ
dξ
Marche à suivre (présentée dans le cas F (X)) :
1) On calcule d F (X).
2) On vectorise d F (X) c’est-à-dire, on calcule vec (d F (X)) = d vec (F (X)).
3) On met sous la forme d vec (F (X)) = A(X)d vec (X).
4) On identifie A(X) = DF (X).
Dérivation des fonctions matricielles composées :
Soit S un ouvert de IRn×q et supposons que F : S → IRm×p soit différentiable en C ∈ S.
Soit T un ouvert de IRm×p tel que F (X) ∈ T pour tout X ∈ S et supposons que G :
T → IRr×s soit différentiable en B = F (C). Alors, la fonction composée H : S → IR r×s
définie par
H(X) = G(F (X))
est différentiable en C et
DH(C) = [DG(B)] [DF (C)].
La formule précédente s’appelle la règle de ”dérivation en chaine” pour les Jacobiens.
2
Exemple : Calcul du Jacobien de φ(X) = trace(AXB) avec A et B constantes.
Première méthode : dφ(X) = dtrace(AXB) = trace(d(AXB)) = trace(A(dX)B)
= trace(BA(dX)) = vec0 (A0 B 0 )dvec(X)
⇐⇒ Dφ(X) = vec0 (A0 B 0 )
ou en réorganisant les dérivées partielles selon la position des éléments de X
∂trace(AXB)
= A0 B 0 .
∂X
2
Deuxième méthode : Soit F (X) = AXB, alors dF (X) = A(dX)B
vec(dF (X)) = dvec(F (X)) = (B 0 ⊗ A)vec(dX).
Donc DF (X) = B 0 ⊗ A.
Soit φ(Y ) = trace(Y ), alors dφ(Y ) = trace(dY ) = trace(IdY ) = vec 0 (I)vec(dY ).
Donc Dtrace(Y ) = vec0 (I). Bien sûr, on peut réorganiser les dérivées partielles selon la
position des éléments de Y , et
∂ trace(Y )
=I.
∂Y
Mais ici, il faut user du Jacobien pour utiliser la dérivation de fonctions composées
Dφ(F (X)) = vec0 (I)(B 0 ⊗ A) = [(B ⊗ A0 )vec(I)]0 = vec0 (A0 IB 0 ) = vec0 (A0 B 0 ).
5.2.2
Hessien de fonctions numériques
Soit φ : IRn −→ IR une fonction deux fois différentiable, alors
2
Hφ(x) = [Dij
φ(x)]
est une matrice symétrique d’ordre n appelée le Hessien de φ en x.
2
Théorème d’identification
d2 φ = d (d φ) = (dx2 )0 B(dx1 ) ⇐⇒ Hφ(x) = 12 (B + B 0 ).
Tableau d’identification
F onctions
φ(ξ)
Différentielles d’ordre 2
Hessien
d2 φ = β(dξ1 )(dξ2 )
φ(x)
d2 φ = (dx2 )0 Bdx1
φ(X)
d2 φ = (dvec(X 2 ))0 B dvec(X 1 )
Ordre
1×1
Hφ(ξ) = β
Hφ(x) = 21 (B + B 0 )
.
n×n
Hφ(X) = 21 (B + B 0 ) nq × nq
Proposition : Soit φ(X) une fonction numérique de X, matrice n × q, alors
d2 φ = trace(B(dX2 )0 C(dX1 )) ⇔ Hφ(X) = 12 (B 0 ⊗ C + B ⊗ C 0 )
d2 φ = trace(B(dX2 )C(dX1 )) ⇔ Hφ(X) = 12 Kqn (B 0 ⊗ C + C 0 ⊗ B).
2
Preuve
On sait que trace(ABCD) = vec0 (D0 )(C 0 ⊗ A)vec(B) = vec0 (D)(A ⊗ C 0 )vec(B 0 ).
Donc trace(B(dX2 )0 C(dX1 )) = vec0 (dX1 )(B ⊗ C 0 )vec(dX2 )
Hφ(X) = 21 (B ⊗ C 0 + B 0 ⊗ C).
trace(BdX2 CdX1 ) = vec0 (dX1 )(B ⊗ C 0 )vec(dX2 )0 = vec0 (dX1 )(B ⊗ C 0 )Knq vec(dX2 )
C)).
5.3
2
Hφ(X) = 12 ((B ⊗ C 0 )Knq + Kqn (B 0 ⊗ C)) = 12 (Kqn (C 0 ⊗ B) + Kqn (B 0 ⊗
Extremums de fonctions numériques
Les problèmes d’optimisation considérés dans cette section sont des problèmes de minimisation d’une fonction numérique réelle φ appelée fonction objectif. Pour maximiser
une fonction φ on se ramène à la minimisation de −φ.
Soient φ : S ⊂ IRn −→ IR et x un point de S. On dit que φ présente en x
un minimum local ou relatif, s’il existe une boule ouverte B(x) centrée en x telle que
φ(x) ≥ φ(x) pour tout x ∈ B(x) ∩ S,
un minimum strict local, s’il existe une boule ouverte B(x) centrée en x telle que
φ(x) > φ(x) pour tout x ∈ B(x) ∩ S, x 6= x,
un minimum global ou absolu, si
un minimum strict global, si
φ(x) ≥ φ(x) pour tout x ∈ S,
φ(x) > φ(x) pour tout x ∈ S, x 6= x.
Par abus de langage on dira que le point x lui même est un minimum local, local
strict...
Transformations strictement croissantes
Théorème 1 : Soit S ⊂ IRn et φ une fonction de S dans IR. Notons T = φ(Ω). Soit
ϕ une application strictement croissante de T dans IR. Alors φ présente un minimum
absolu (resp. relatif) en x si et seulement si ψ = ϕ ◦ φ présente un minimum absolu (resp.
relatif) en x.
Preuve :
2
Soit ϕ une fonction croissante sur T et x un minimum local ou
global pour φ, c’est à dire φ(x) ≥ φ(x) sur un certain ensemble O.
Alors
ψ(x) = ϕ(φ(x)) ≥ ϕ(φ(x)) = ψ(x).
Dans l’autre sens, supposons que x soit un minimum local ou global pour ψ, ψ(x) ≥ ψ(x)
pour tout x dans un certain ensemble O.
Supposons qu’il existe x0 de O tel que
φ(x0 ) < φ(x). La stricte croissance de ϕ implique ψ(x0 ) = ϕ(φ(x0 )) < ϕ(φ(x)) = ψ(x) ce
qui est impossible. Donc φ(x) ≥ φ(x) pour tout x ∈ O.
2
Applications :
A1 :
Minimisation d’une norme Euclidienne :
La fonction k.k2 n’est pas
différentiable en 0, aussi pour récupérer la différentiabilité de la fonction objec-
tif, on minimise ψ = k.k22 plutôt que φ = k.k2 (on choisit donc ϕ(ξ) = ξ 2 qui est
strictement croissante sur [0, +∞[).
A2 : Maximum de vraisemblance : Maximiser φ(x) = exp(−η(x)) est équivalent à
maximiser ln(φ(x)) ce qui est encore équivalent à minimiser η(x).
5.3.1
Problèmes d’extremums libres
Conditions nécessaires de minimum local
Théorème 2 : Soit Ω un ouvert de IRn et φ une fonction de Ω dans IR différentiable sur
Ω. Si φ admet un minimum local en un point x de Ω, alors
Dφ(x) = 01×n
Remarques:
ou
∇φ(x) = 0n×1 .
(*)
2
R1 : Importance de l’hypothèse ”Ω est un ouvert”. Contre-exemple évident : minimiser
la fonction de la variable réelle φ(ξ) = ξ 2 sur l’intervalle fermé [ 1, 2 ] admet pour
solution ξˆ = 1 en lequel Dφ(1) = 2 6= 0.
R2 :
Toute solution x du système (*) des n équations aux dérivées par-
tielles ou équations normales ou encore équations d’Euler,
est appelée
point stationnaire ou point critique. Déterminer la nature d’un point critique, c’est
étudier s’il s’agit d’un minimum, d’un maximum ou d’un point-selle. Le théorème
3 fournit des conditions suffisantes dans le cas où la fonction obectif est 2 fois
différentiable.
R3 : Lorsque la fonction objectif φ(X) a un argument matriciel Xn×p , la condition
nécessaire d’extremum local en X de l’ouvert Ω, s’écrit
∂φ(X)
= 0n×p .
Dφ(X) = 01×np ou encore
∂X
(*)
Conditions suffisantes d’optimalité (convexité) locale
Théorème 3 : Si φ est 2 fois différentiable sur Ω ouvert de IRn , un point critique x de
Ω est un minimum local si une des conditions suivantes est réalisée
(1) Il existe une boule B(x) centrée en x ∈ Ω telle que
le Hessien Hφ(x) est une matrice semi définie positive pour tout x ∈ B(x) ∩ Ω.
(2) Le Hessien Hφ(x) est une matrice définie positive, c’est à dire, les mineurs principaux du déterminant de Hφ(x) sont positifs. Dans ce cas le minimum est strict.
2
Remarque : Les conditions suffisantes précédentes s’étendent au cas φ(X) d’une fonction
de matrice, par le calcul de Hφ(X).
5.3.2
Problèmes d’extremums liés
Soit la fonction ojectif φ : Ω ouvert ⊂ IRn → IR et soit la fonction vectorielle g =
[g1 , . . . , gm ]0 : Ω → IRm permettant de définir l’ensemble S des contraintes
S = {x ∈ IRn | x ∈ Ω ; g1 (x) = 0 , . . . , gm (x) = 0}.
Le problème est maintenant le suivant :
minimiser φ(x)
sous la contrainte : x ∈ S
La façon la plus efficace pour résoudre ce type de problème d’extremums liés par les m
contraintes de type égalité, est en général d’utiliser les multiplicateurs de Lagrange.
Conditions nécessaires d’optimalité locale
Théorème 4 (Lagrange) :
Hypothèses sur les contraintes
Soient g : Ω ouvert de IRn → IRm (n > m) et x ∈ Ω tels que
H1 : g(x) = 0,
H2 : g est différentiable sur une boule ouverte B(x),
H3 : la matrice Jacobienne Dg(x) m × n est continue en x,
H4 : Dg(x) est de rang m.
Hypothèses sur la fonction objectif
Soit φ : Ω → IR telle que
H5 : φ est différentiable en x,
H6 : φ(x) ≥ φ(x) pour tout x de B(x) vérifiant g(x) = 0.
Conclusion
Il existe un (unique dû à H4) vecteur l = [λ1 , . . . , λm ]0 appelé vecteur des multiplicateurs
de Lagrange, tel que
Dφ(x) + l 0 Dg(x) = 01×n ,
ou en transposant
Remarques :
∇φ(x) +
Pm
i=1
λi ∇gi (x) = 0n×1 .
(**)
(**)
2
R1 : Méthode des multiplicateurs de Lagrange : Dans la recherhe d’optimums
locaux, on construit d’abord la fonction de Lagrange L : Ω × IR m → IR
L(x, l) = φ(x) + l 0 g(x) = φ(x) +
Pm
i=1
λi gi (x).
Les conditions nécessaires d’optimalité locale pour le problème d’extremums libres
min
Ω × IRm
L(x, l)
s’écrivent
∇x L(x, l) = ∇φ(x) +
Pm
i=1
λi ∇gi (x) = 0
(**)
∇l L(x, l) = g(x) = 0.
Elles fournissent comme solutions les point critiques (x, l). Parmi eux se trouvent
les optimums locaux de φ relatifs à S. Il faut enfin sélectionner parmi les points
critiques ceux qui sont des minimums.
R2 : Cas où φ est fonction d’une matrice Xn×p .
Soient φ : Ω (ouvert de IRn×p ) → IR et G : Ω → IRm×q , le problème d’optimisation
devient
min
φ(X)
G(X) = 0m×q
Par vectorisation, ce problème est un problème d’optimisation à mq contraintes. On
introduit Λ = [λij ], matrice m×q des multiplicateurs de Lagrange, dans l’expression
de la fonction de Lagrange L(X, Λ) definie par
L(X, Λ) = φ(X) + vec0 (Λ)vec(G(X)) = φ(X) + trace(Λ0 G(X)).
Il faut déterminer les points critiques (X, Λ) de la fonction L(X, Λ) et enfin étudier
la nature ces points.
Conditions suffisantes de minimum local sous contraintes
Théorème 5 : Supposons que L(x, l) soit 2 fois différentiable au point critique (x, l) et
que la matrice Jacobienne m × n Dg(x) soit de rang m. Si de plus
u0 Hx L(x, l) u > 0
où Hx L(x, l) = Hφ(x) +
contrainte g(x) = 0.
2
Pm
i=1
pour tout u ∈ IRn tel que Dg(x) u = 0m×1 ,
λi Hgi (x), alors φ présente un minimum strict en x sous la
5.4
Exercices
:
Exercice 1 : Fonctions numériques d’un vecteur
Etablir
le
tableau
d’identification suivant
∇ φ(x)
φ(x)
d φ(x)
D φ(x)
a0 x
a0 dx
a0
x0 Ax
x0 (A + A0 )dx
x0 (A + A0 )
(A + A0 )x
φ1 (x)
φ2 (x)
φ2 dφ1 −φ1 dφ2
φ22
(φ2 Dφ1 − φ1 Dφ2 )/φ22
φ2 (x)∇φ1 (x)−φ1 (x)∇φ2 (x)
φ22 (x)
a
Exercice 2 : Fonctions numériques d’une matrice
a) Montrer que
∂trace(X)
=I;
∂X
∂trace(X 0 X)
= 2X ;
∂X
∂trace(X 2 )
= 2X 0 .
∂X
b) Etablir le tableau d’identification suivant
φ(X)
trace(AX)
d φ(X)
D φ(X)
∂φ(X)/∂X
trace(AdX)
0
vec (A )
A0
vec0 (B 0 XA0 + BXA)
B 0 XA0 + BXA
trace(XAX 0 B) trace[(AX 0 B + A0 X 0 B 0 )dX]
trace(XAXB)
trace[(AXB + BXA)dX]
0
vec0 (B 0 X 0 A0 + A0 X 0 B 0 ) B 0 X 0 A0 + A0 X 0 B 0
Exercice 3 : Fonctions vectorielles
Calculer les matrices Jacobiennes de f (x) = Ax, f (x) = a(x0 x), f (X) = Xa.
Exercice 4 : Fonctions matricielles : Etablir le tableau d’identification suivant
F (X)
d F (X)
D F (X)
X
dX
Inq
X0
dX 0
XX
0
X 0X
0
(dX)X + X(dX)
Knq
0
(In2 + Knn )(X ⊗ In )
(dX)0 X + X 0 (dX) (Iq2 + Kqq )(Iq ⊗ X 0 )
où X est une matrice n × q.
Exercice 5 : Calculer les matrices Hessiennes des fonctions scalaires suivantes :
φ(x) = x0 Ax, φ(X) = trace(X 0 AX),
φ(X) = trace(AXBX 0 ),
φ(X) = trace(X 2 ).
Exercice 6 : Résoudre le problème d’optimum libre suivant
min kY − AXk2F
X
où les matrices Y m × n et A m × p sont données.
Exercice 10 : Soient A une matrice symétrique définie positive n×n et B une matrice
m × n. Alors,
trace(X 0 AX) ≥ trace[(BA−1 B 0 )−1 ]
pout toute matrice X n × m satisfaisant BX = Im . Le minimum étant obtenu pour
b = A−1 B 0 (BA−1 B 0 )−1 .
X
Indication : exprimer le problème sous forme d’un problème d’optimisation avec contraintes de type égalité et le résoudre.
Chapter 6
Le paysage mathématique et
statistique de l’Analyse Factorielle de
Données : la géométrie Euclidienne
L’analyse factorielle de données a pris son essort dans le deuxième tiers du XXième
siècle avec l’apparition des ordinateurs et le devoir de traiter des données dont la taille
n’a fait que crotre avec les progrès de l’informatique. Traiter ou analyser les données,
c’est d’abord essayer de détecter la présence d’éventuelles erreurs de saisie ou de données
atypiques, ensuite tenter de visualiser certaines structures communes difficiles voire impossibles à mettre a priori en évidence à cause de la taille des données.
La diversité de nature des variables mesurées est à l’origine de la création des différentes
méthodes d’analyse factorielle. Historiquement, l’Analyse en Composantes Principales
(ACP), dite classique ou usuelle, est la première apparue (Hotelling, 1901, Spearman,
1904) pour traiter des mesures sur des variables quantitatives.
Cependant d’autres
méthodes d’analyse factorielle portant sur des variables qualitatives ou booléennes, par
exemple les méthodes d’analyse d’une enquête, procèdent du même principe : celui de la
réduction de la dimension, c’est à dire, la mise en évidence de variables latentes
ou Composantes Principales, en petit nombre, qui résument les variables mesurées,
au sens où ces nouvelles variables synthétiques sont des combinaisons linéaires
des variables originelles dont les poids sont appelés les facteurs principaux.
On emploie aussi de ce fait, la dénomination d’analyse factorielle linéaire.
L’objectif de ce chapitre est de définir vocabulaire et notations aptes à mettre en évidence
les analogies entre la géométrie Euclidienne et la statistique
89
6.1
Le triplet (T, M, D) des données
Un jeu de données est constitué par un triplet (T, M, D) défini par les trois éléments
suivants.
• T = [Tij ] ∈ IRn×p est la matrice des données brutes exprimant les n mesures de
p variables, x1 , . . . , xp , par exemple quantitatives. Le tableau T pourra aussi être
obtenu à partir des résultats d’une enquête; on verra plus loin dans ce cas, la nature
des données.
• M , p × p, est une métrique Euclidienne sur l’espace IRp des lignes de T .
La ième ligne de T, notée Ti , sera considérée comme l’expression dans la base canonique de l’espace (IRp , M ), de l’échantillon du ième individu.
• D, métrique sur l’espace Euclidien IRn des colonnes de T , est une matrice, n × n,
qui sera toujours diagonale D = diag(p1 , . . . , pn ) .
La jème colonne de T , notée T j , sera considérée comme l’expression dans la base
canonique de (IRn , D), de l’échantillon de la jème variable, xj .
Les espaces Euclidiens (IRn , D) et (IRp , M ) considérés sont respectivement les espaces des
individus et des variables. Ces espaces sont soit des espaces vectoriels soit des espaces
affines selon que l’on parlera de vecteurs ou de points, un point origine ayant alors été
choisi au préalable. Par abus de langage, on confondra parfois lorsqu’il n’y aura pas
d’ambiguté, un point-vecteur ligne (respectivement un point-vecteur colonne) avec la matrice ligne (colonne) de son expression dans la base canonique.
D’autre part, on notera r le rang de T , r ≤ min(n, p).
L’espace des variables
échantillonnées, Im T , et l’espace des individus échantillonnés, Im T 0 , sont de même
dimension r
dim Im T = dim Im T 0 = r.
6.2
Statistique et géométrie sur (IRn, D), espace des
variables
6.2.1
Le simplexe des poids statistiques et la droite des constantes
Dans les applications, les poids pi sont les poids statistiques des individus. La matrice
diagonale


, . . . , pn )

 D = diag(p1P
trace(D) = i pi = 1


 p > 0 pour i = 1 . . . n,
i
est appelée la matrice des poids statistiques affectés aux n individus.
p
3
1 |
n
1
p
1
2
1
p
1
Figure 8 : simplexe des poids statistiques (n = 3).
On appelle simplexe des poids l’ensemble
D = {(p1 , . . . , pn ) ∈ IRn | pi ≥ 0, i = 1, . . . , n et
P
i
pi = 1}.
Remarquer que si un poids est nul, la matrice D n’est que semi-définie positive et ne peut
plus être considérée comme une métrique sur IRn . Le cas le plus usité en statistique est
celui des poids uniformément répartis
∀i
pi =
1
,
n
et
D=
1
In .
n
Dans ce cas la projection D-orthogonale concide avec la projection au sens usuel.
P
Soit 1In = i ei (n) = [1, . . . , 1]0 . Le vecteur 1In est In -orthogonal au plan vectoriel 1I0n x =
x1 + . . . + xn = 0 qui est associé au plan affine x1 + . . . + xn = 1 contenant D. De plus,
ce vecteur est de D-norme égale à 1, en effet
trace(D) = 1I0n D1In = k1In k2D = 1.
On appelle “droite des constantes” la droite vectorielle engendrée par 1In .
P1 Le projecteur D-orthogonal sur 1In est égal à
P 1n =
1In (1I0n D1In )−1 1I0n D
=
C’est une matrice n × n de rang égal à 1.
1In 1I0n D
2

p1

 p1
=
 .

p1
p2
...
p2
...
.
...
p2
...
pn


pn 
.
. 

pn
Dans le cas usuel de poids statistiques égaux,
P1n = n−1 1In 1In 0 .
6.2.2
Moyenne et centrage vus comme une projection
Soit t = [t1 , . . . , tn ]0 un n-échantillon d’une variable statistique munie des poids statistiques
définis par la diagonale de D.
La moyenne de t, notée t, est définie par le D-produit scalaire entre t et le vecteur 1I n .
En effet,
t=
P
i
pi ti = 1I0n Dt =< 1In , t >D .
La projection du vecteur t sur 1In a pour mesure algébrique t. En effet,
P1n t = 1In 1In 0 Dt = 1In t = t1In .
P2 Centrer une variable t au sens de D, on dira D-centrer t, c’est construire

t1 − t

 t2 − t
x=
 ...

tn − t



 = t − t1In = (In − P1n )u = P1⊥ t
n


c’est à dire projeter t sur le sev de IRn D-orthogonal à 1In .
2
Preuve :
x = t − t 1In = t − 1In t = t − P1n t.
2
t
2
1
2
t
t1
t2
t
t
2
1
1|
t
1|
t1
1
x
t
t
t
1
1|
Figure 9 : La moyenne vue comme une projection sur la droite des constantes
(n = 2).
6.2.3
Variance et écart-type
La moyenne t définit un “paramètre de position” pour la variable t à partir de la géométrie
euclidienne basée sur la métrique diagonale des poids statistiques. Caractériser la position
d’une variable statistique n’a de sens que si on lui associe un autre paramètre statistique
caractérisant la “dispersion autour de la moyenne” appellé l’écart-type ou la déviation
standard. Ce paramètre est défini à partir de la variance de t.
La variance de t, on dit aussi la D-variance ou encore la variance géométrique ou
empirique, notée var(t), est définie par
var(t) =
n
X
i=1
pi (ti − t)2 = var(x).
L’écart-type, noté σ(t), est défini par
σ(t) =
p
var(t) = σ(x).
Il s’exprime dans la même unité de mesure que celle des observations, t1 , . . . , tn , de la
variable t.
P3 La variance de t est le carré de la D-norme de la variable centrée x,
var(t) = kxk2D .
P
2
2
Formule développée: var(t) = kt − t1In k2D = ktk2D − t = i pi t2i − t .
p
L’écart-type est la norme de x, σ(t) = var(t) = kxkD = σ(x). 2
P
Preuve : Par définition, var(t) = i pi (ti − t)2 = x0 Dx = kxk2D . 2
Le vecteur x/kxkD est appelé la variable déduite de t par centrage et réduction (au sens
de D), ont dit aussi variable réduite ou standardisée. Bien sûr, la moyenne d’une variable
réduite est nulle, sa variance et son écart-type sont égaux à 1.
6.2.4
Proximité entre deux variables, covariance et corrélation
linéaire
Soient deux n-échatillons t = [t1 , . . . , tn )]0 et u = [u1 , . . . , un )]0 munis des mêmes poids
statistiques de la diagonale de D. Notons x et y les deux variables centrées respectivement
associées à t et u. On mesure la proximité entre t et u par le coefficient de corrélation
linéaire r(t, u) dont la définition découle de celle de la covariance entre ces deux variables.
La covariance netre t et u est définie par
cov(t, u) =
n
X
i=1
pi (ti − t)(ui − u) =
n
X
pi xi yi = cov(x, y).
i=1
De façon évidente, cov(t, u) = cov(u, t). La variance d’une variable peut être définie à
partir de la covariance, var(t) = cov(t, t), ce qui est la conséquence de l’interprétation
géométrique suivante
P4 La covariance entre deux variables t et u est le D-produit scalaire entre les variables
centrées, cov(t, u) = x0 Dy =< x, y >D = cov(x, y).
P
Formule développée: cov(t, u) =< t, u >D −tu = i pi ti ui − tu.
Preuve : Evidente.
2
2
Le coefficient de corrélation linéaire entre t et u, noté r(t, u), est défini par
r(t, u) ==
cov(t, u)
= r(x, y).
σ(t)σ(u)
P5 Le coefficient de corrélation linéaire s’interprète dans IR n comme le cosinus du Dangle formé par les vecteurs D-centrés.
r(t, u) =
< x, y >D
cov(t, u)
=
,
σ(t)σ(u)
kxkD kykD
Le théorème de Cauchy-Schwarz donne
−1 ≤ r(t, u) ≤ 1.
L’égalité n’a lieu que si x et y sont colinéaires.
2
On dit que t et u sont non corrélés si r(t, u) = 0 c’est à dire si les variables centrées x et
y sont D-orthogonales.
P6 Droite de régression linéaire et coefficient de corrélation
La propriété P5 de r(t, u) fournit l’interprétation géométrique de la proximité entre
t et u dans l’espace (IRn , D) qui est l’espace Euclidien des variables. Dans ce cas
bivarié, on peut visualiser l’interprétation de r(t, u) dans l’espace (IR 2 , I2 ) des individus. Le nuage N des n points-individus Mi de coordonnées (ti , ui ) dans la base
canonique {e~1 , e~2 }, et de poids respectifs pi est représenté Figure 10.
On appelle droite de régression, la droite ∆ passant par G, individu moyen de coordonnées (t, u), et d’équation y = âx dans le repère (x, y). Le coefficient angulaire,
â, de ∆ est solution du prolème de la minimisation de la fonction ϕ de IR dans IR
définie par
ϕ(a) =
n
X
i=1
pi (yi − axi )2 = ky − axk2D .
y
u
( M i , pi )
ui
yi
N
yi - a x
a xi
y=ax
i
u
xi
G
x
e2
O
e1
t
ti
t
Figure 10: Ajustement linéaire d’un nuage de points bivariés.
Cette fonction mesure la somme pondérée des carrés des écarts verticaux entre les
individus et leurs homologues sur une droite quelconque passant par G et de pente
a. En quelque sorte, ϕ(a) mesure l’écart vertical entre le nuage N des points pesants
et une telle droite. Le minimum de ϕ est atteint pourla valeur â qui définit, dans le
repère (t, u), la droite de régression ou d’ajustement linéaire ∆.


u = â t + b̂



cov(t, u)
â =
Equation de ∆ :

var(t)


 u = â t + b̂
La valeur minimale de ϕ s’exprime en fonction de r(t, u)
ϕ(â) = var(u)[1 − r 2 (t, u)],
ce qui permet de mesurer grâce à r(t, u) l’ajustabilité du nuage par une droite.
r = - 0.8
r = 0.9
r=0
r=0
Figure 11: Ajustabilité d’un nuage bivarié suivant les valeurs de r.
Remarquer que lorsque t et u sont non corrélés, cov(t, u) = 0, ∆ a pour équation u = u.
6.2.5
Définitions et notations pour la statistique multivariée
On dispose d’un échantillon de mesures de p variables toutes mesurées sur les mêmes n
individus. Ces mesures sont stockées dans la matrice T des données brutes. On suppose
que les n individus sont munis des poids statistiques formés par la diagonale de D.
On appelle individu moyen le vecteur ligne, noté T , formé des moyennes de p variables
(colonnes de T ).
T = [t1 , . . . , tp ] = 1I0n DT.
La matrice X obtenue par centrage des variables est définie par
X = (In − 1In 1I0n D)T .
Elle s’interprète du point de vue des individus (lignes) comme la différence entre
chaque individu et l’individu moyen.
On est amené à étudier les liens de proximité entre les variables prises deux à deux :
La matrice des covariances géométriques est définie par
V = [Vij = cov(ti , tj )] = X 0 DX,
où ti est la ième colonne de T .
Cette matrice carrée d’ordre p, est symétrique semi définie positive, rang(V ) = rang(T ).
Elle est définie positive si rang(T ) = p. Remarquer que Vii = var(ti ).
Standardiser les p variables, c’est à dire D-centrer réduire les variables sur l’échantillon,
revient à construire
Z = XQ
où Q = diag(σ1−1 , . . . , σp−1 ). La matrice des corrélations entre les variables est
R = [Rij = r(ti , tj )] = Z 0 DZ = Q0 V Q.
2
Remarquer que la diagonale de R est formée de 1 car r(t, t) = 1.
P7 Supposons Y n × 1 et X = [X 1 | . . . |X p ] n × p deux matrices D-centrées. Soit
Yb = PX Y la projection D-orthogonale de Y sur ImX. Puisque X est D-centrée, Yb
est de moyenne nulle et kYb k2D = var(Yb ). Le coefficient de détermination entre Y et
ImX défini dans la section 4.2.2, s’écrit
R2 (Y, ImX) =
De plus,
R2 (Y, ImX) =
var(Yb )
.
var(Y )
Y 0 DYb
cov(Y, Yb )
=
= r2 (Y, Yb ).
0
Y DY
var(Y )
Preuve : C’est la conséquence de la D-symétrie du projecteur PX , c’est à dire
DPX = (PX )0 D. Alors, kYb k2 = Y 0 (PX )0 DPX Y = Y 0 DPX PX Y = Y 0 DYb . 2
D
On peut montrer, voir exercice, que
R2 (Y, ImX) = max r2 (Y, W ) ,
W ∈ImX
et que le maximum est réalisé pour W = PX Y .
On utilise aussi
p
R(Y, ImX) =
R2 (Y, ImX) = r(Y, Yb )
qui s’appelle le coefficient de corrélation multiple entre Y et ImX.
6.3
Exercices
Exercice 1 : Régression linéaire simple de u sur t.
Dans le contexte de la propriété P6 de la section 6.2.4, la régression linéaire de u sur
t est présentée sur les variables centrées y et x respectivement, cet exercice la présente
maintenant sur les variables initiales. On dispose de deux n-échantillons, t variable explicative et u variable réponse, dont les observations sont munies des poids statistiques
{pi | i = 1, . . . , n} stockés dans la diagonale de D.
L’objectif est de minimiser la fonction φ de IR2 dans IR+ définie par
φ(a, b) =
n
X
i=1
Posons X = [1In t], matrice n × 2, et β =
pi (ui − ati − b)2 .
"
b
#
vecteur colonne des inconnues a et b.
a
2
0
0
−1
0
1) Montrer que
" φ(β)
# = ku − XβkD . Calculer X DX, (X DX) et X Du.
b̂
2) Soit β̂ =
solution du problème. Calculer β̂ en utilisant les résultats de la
â
section
4.2.2. Vérifier que l’on retrouve les résultats de P6. Quelle est l’interprétation
géométrique de û = X β̂ dans (IRn , D)?
3) Eprimer φ(β̂) en fonction de r(t, u).
Exercice 2 : Dans le contexte de la propriété P7 de la section 6.2.5, on se propose
de montrer que
R2 (Y, ImX) = max r2 (Y, W ) ,
W ∈ImX
et que le maximum est réalisé pour W = PX Y .
1) Quelle est l’interprétation géométrique de cette propriété?
2) Calculer le vecteur gradient de l’application ϕ de IRp dans IR
v −→ ϕ(v) =
(Y 0 DXv)2
.
kY k2D (v 0 X 0 DXv)
Soit ∇ϕ(v) ce vecteur. Montrer que l’équation ∇ϕ(v) = 0 s’écrit
PX PY W = ϕ(v)W .
En déduire que le vecteur W = Xv optimal est vecteur propre de PX PY associé à la plus
grande valeur propre.
3) Si Ŷ = PX Y , montrer que PX PY admet une seule valeur propre non nulle égale à
Y 0 DŶ
= R2 (Y, ImX) .
2
kY kD
Vérifiez enfin que W = Ŷ est le vecteur propre associé à cette valeur propre.
Chapter 7
Généralisation de la Décomposition
en Valeurs Singulières. Analyse en
Composantes Principales du triplet
(X, M, D)
Toutes les méthodes de l’Analyse Factorielle de l’Analyse de Données peuvent être
présentées dans un cadre commun : celui de l’extension du théorème de la Décomposition
en Valeurs Singulières (DVS) au cadre d’espaces Euclidiens plus généraux. La présentation
synthétique qui va suivre, est basée sur l’introduction de métriques sur les espaces Euclidiens envisagés. Le choix d’une métrique permettra d’adapter cette technique générale,
appelée ACP du triplet (X, M, D), au problème posé par le type de données à traiter.
Historiquement, la première méthode apparue pour analyser un tableau issu de
mesures sur variables quantitatives, est l’Analyse en Composantes Principales (ACP)
dite usuelle. Elle correspond au triplet
• X matrice, n × p, des variables centrées (éventuellement réduites),
• M = Ip , métrique usuelle sur l’espace des lignes,
• D = n−1 In , métrique sur l’espace des variables, formée par la matrice diagonale des
poids égaux pour les individus.
On verra que d’autres méthodes d’analyse des données nécessitent des choix différents,
en particulier lorsque les données sont issues du dépouillement d’une enquête statistique.
101
Toutes ces méthodes rentrent dans le cadre de la décomposition en valeurs singulières du
triplet (X, M, D).
7.1
Décomposition en Valeurs Singulières du triplet
0
,
Dans la DVS usuelle examinée au chapitre 2, les matrices X 0 Xp×p et XXn×n
symétriques, jouent un rôle fondamental. Dans la DVS du triplet (X, M, D), ce rôle
va être attribué repectivement aux matrices X 0 DXMp×p et XM X 0 Dn×n . Ces matrices ne
sont pas symétriques, sauf dans le cas où M et D sont de la forme kI comme dans la DVS
usuelle et dans le cas de l’ACP usuelle. Elles sont respectivement M et D-symétriques. Il
est d’autre part nécessaire de s’assurer que les valeurs propres de telles matrices sont nonnégatives et que les vecteurs propres sont orthogonaux au sens de la métrique concernée.
C’est l’objectif du Lemme suivant.
7.1.1
Lemme
La matrice X 0 DXM (resp. XM X 0 D) est M -symétrique (resp. D-symétrique), ses r
valeurs propres non-nulles sont réeelles positives et ses vecteurs propres forment une base
M -orthonormée de Im X 0 (resp. D-orthonormée de ImX).
2
Preuve :
Une matrice carrée A est M -symétrique si et seulement si M A = A0 M , ce qui est le cas
pour X 0 DXM à cause de la symétrie de M et de D. La matrice M étant symétrique
définie-positive, soit M = M 1/2 M 1/2 sa décomposition par la DVS (M 1/2 est symétrique
définie positive). On peut aussi utiliser Cholesky : M = T T 0 , où T est triangulaire
inférieure à diagonale positive. Notons Λr = diag(λ1 , . . . , λr ) et V = [V 1 , . . . , V r ] les
matrices des valeurs propres non-nulles et des vecteurs proppres associés pour X 0 DXM
de rang r
X 0 DXM V = V Λr
X 0 DXM 1/2 (M 1/2 V ) = V Λr
M 1/2 X 0 DXM 1/2 (M 1/2 V ) = (M 1/2 V )Λr
On pose Y = M 1/2 V ou V = M −1/2 Y . La matrice M 1/2 X 0 DXM 1/2 est symétrique semidéfinie positive de rang r, ses r valeurs propres non-nulles sont réelles positives et ses r
vecteurs propres {Y j } sont orthonormés au sens usuel (métrique identité). Il en résulte
Ir = Y 0 Y = V 0 (M 1/2 )0 M 1/2 V = V 0 M V.
0
0
Puisque V = X 0 DXM V Λ−1
r , Im V ⊂ Im X et comme rang(V ) = rang(X ) = r, il en
résulte que les deux espaces vectoriels coincident, Im V = Im X 0 .
2
j
Remarque : La construction effective des vecteurs propres {V } de X 0 DXM passe
d’abord par le calcul des vecteurs propres {Y j } de M 1/2 X 0 DXM 1/2 puis par le calcul de
V j = M −1/2 Y j .
7.1.2
La DVS du triplet (X, M, D)
Théorème : Soient X ∈ IRn×p de rang r, M métrique sur IRp et D métrique sur IRn .
Il existe
• Un×r , D-orthonormée (U 0 DU = Ir ), dont les colonnes sont les vecteurs propres
associés aux valeurs propres {λ1 , . . . , λr } non-nulles de XM X 0 D,
• Vp×r , M -orthonormée (V 0 M V = Ir ), dont les colonnes sont les vecteurs propres
associés aux mêmes valeurs propres {λ1 , . . . , λr } non-nulles de X 0 DXM ,
1/2
• Λr
1/2
1/2
1/2
= diag(λ1 , . . . , λr ) matrice diagonale des valeurs singulières {λi } du
triplet (X, M, D),
telles que X s’écrive
X=
0
U Λ1/2
r V
=
r p
X
λi U i V i0 .
2
i=1
Les valeurs singulières sont toujours classées par ordre décroissant
1/2
λ1
≥ . . . ≥ λ1/2
>0
r
ce qui induit un classement sur les colonnes de U = [U 1 , . . . , U r ] et de V = [V 1 , . . . , V r ].
Preuve :
La décomposition spectrale de X 0 DXM s’écrit d’après le Lemme précédent
(
X 0 DXM V
= V Λr
V 0 M V = Ir .
Posons
U = XM V Λr−1/2 ,
appelée première formule de transition qui permet d’exprimer U en fonction de V .
Propriétés de U
(∗)
• Les colonnes de U sont vecteurs propres de la matrice XM X 0 D qui à les mêmes
valeurs propres non-nulles que X 0 DXM :
−1/2
XM X 0 DU = XM X 0 DXM V Λr
−1/2
= XM V Λr Λr
−1/2
= XM V Λr
Λr
= U Λr .
• Les colonnes de U forment une base D-orthonormée de Im X (preuve immédiate).
1/2
0
Montrons que X = U Λr V 0 . Pour cela, notons ΠM
V = V V M , le projecteur M -orthogonal
sur Im V = Im X 0 .
1/2
−1/2
U Λr V 0 = XM V Λr
1/2
0 0
M
0 0
0 0
Λr V 0 = XM V V 0 = (ΠM
V X ) = (ΠX 0 X ) = (X ) = X.
2
Deuxième formule de transition : De façon duale, on peut aussi démontrer le théorème
de la DVS de X en partant de la décomposition spectrale de la matrice XM X 0 D. On
construit la deuxième formule de transition qui exprime V en fonction de U
V = X 0 DU Λ−1/2
.
r
(∗∗)
Corollaire : décomposition des matrices V = X 0 DX et W = XM X 0
V = V Λr V 0 =
r
X
λi V i V i0
et W = U Λr U 0 =
λi U i U i0 .
i=1
i=1
7.1.3
r
X
Relation avec la DVS usuelle
La DVS usuelle de X est la DVS du triplet
(X, M = Ip , D = In ) .
La DVS usuelle déjà étudiée au chapitre 2, correspond au cadre Euclidien naturel
pour les espaces des lignes et des colonnes du tableau X.
Relation entre la DVS de (X, M, D) et de (Z = D 1/2 XM 1/2 , Ip , In )
La DVS du triplet (X, M, D) est équivalente à la DVS usuelle de la matrice
Z = D1/2 XM 1/2
1/2
au sens suivant : toutes deux ont les mêmes valeurs singulières; si Z = Uz Λr Vz0 et
1/2
X = Ux Λr Vx0 sont les deux décompositions, alors Ux = D−1/2 Uz et Vx = M −1/2 Vz .
Preuve : Exercice 1.
2
2
7.1.4
Projecteurs orthogonaux associés à la DVS
Les colonnes de V = [V 1 , . . . , V r ] forment une base M -orthonormée de Im X 0 , celles de
U = [U 1 , . . . , U r ] forment une base D-orthonormée de Im X. Il en résulte l’expression
des projecteurs orthogonaux sur ces espaces vectoriels de dimension r.
1/2
Soit X = U Λr V 0 la DVS de (X, M, D). Le projecteur M -orthogonal sur Im X 0 et le
projecteur D-orthogonal sur Im X sont donnés par :
ΠM
X0
0
−1
0
0
= V (V M V ) V M = V V M =
r
X
i
i0
V V M=
r
X
U i U i0 D =
i=1
ΠM
Vi ,
i=1
i=1
0
−1 0
0
ΠD
X = U (U DU ) U D = U U D =
r
X
r
X
ΠD
Ui .
i=1
Notons que lorsqu’on dispose d’une base orthogonale d’un sous-espace vectoriel, le projecteur sur cet espace se décompose en la somme des projecteurs sur chacun des espaces
de dimension 1 engendrés par les vecteurs de base.
7.1.5
Théorème d’approximation d’Eckart-Young
1/2
Théorème : Soient X ∈ IRn×p de rang r, X = U Λr V 0 la DVS de (X, M, D) et k un
entier, k ≤ r. On note Uk = [U 1 , . . . , U k ] et Vk = [V 1 , . . . , V k ] les matrices extraites de
1/2
U et de V , et Λk
1/2
1/2
= diag(λ1 , . . . , λk ) la matrice diagonale des k premières valeurs
singulières.
bk de Ek = {Xk ∈ IRn×p | rang(Xk ) = k}, le plus proche de X
On cherche un élément X
au sens de la norme k.kM ⊗D . Alors,
bk k2M ⊗D =
min kX − Xk k2M ⊗D = kX − X
Xk ∈Ek
r
X
λi ,
i=k+1
l’optimum étant atteint par la DVS incomplète de rang k,
bk = Uk Λ1/2 Vk0 . 2
X
k
Les valeurs propres (carrés des valeurs singulières) étant classées par ordre décroissant,
bk est la somme des plus petites
le carré de l’erreur lors de l’approximation de X par X
valeurs propres restantes.
Preuve :
Admettons le résultat dans le cadre Euclidien usuel, voir Exercice 2 : pour toute matrice
Z, n × p, de rang r, élément du triplet (Z, Ip , In )
min kZ −
Zk ∈Ek
Zk k2F
= kZ − Zbk k2F =
r
X
λi .
i=k+1
L’optimum est atteint par la DVS incomplète de rang k de Z
1/2
Zbk = [Uz ]k Λk [Vz ]k 0 .
Posons Z = D1/2 XM 1/2 et notons que Ek est l’ensemble des matrices Xk = D−1/2 Zk M −1/2
pour toute matrice Zk de rang k. De façon évidente
kZ − Zk k2F = trace((Z − Zk )0 (Z − Zk )) = trace((X − Xk )0 D(X − Xk )M ) = kX − Xk k2M ⊗D .
L’équivalence de la DVS des triplets (X, M, D) et (Z, Ip , In ) au sens de la Section 6.2.3,
implique que la solution
bk = D−1/2 Zbk M −1/2 = D−1/2 [Uz ]k Λ1/2 [Vz ]k 0 M −1/2 = [Ux ]k Λ1/2 [Vx ]k 0 ,
X
k
k
est fournie par la DVS incomplète de rang k de X.
7.2
2
Analyse en Composantes Principales d’ordre k
du triplet (X, M, D)
L’Analyse en Composantes Principales, en bref ACP, usuelle associée au choix M = Ip
et D = n−1 In , est une méthode d’analyse exploratoire de données multivariées dont l’un
des objectifs est la vision plane à deux dimensions des points lignes et des points colonnes
(photos obtenues par projection sur des plans dits factoriels).
Le fait d’envisager des métriques plus générales introduit une distorsion dans la
représentation des distances, voir les remarques de la section 2.6. et la section 6.2.3.
Cependant, dans la plupart des méthodes factorielles, outre D, la métrique M est
diagonale. Dans ce cas, pour une vision naturelle d’un point il suffit de multiplier chaque
coordonnée i par la racine carrée du ième élément diagonal de la métrique. Cela est
cependant inutile dans l’ACP usuelle où tous les points lignes ont le même poids ainsi
que les points colonnes. Dans l’Analyse Factorielle des Correspondances (AFC) simple
ou multiple, des transformations sur les données sont effectuées pour que les distances
Euclidiennes associées au triplet correspondent à la distance du χ2 entre vecteurs des
fréquences conditionnelles des données d’une enquête. La vision naturelle des points n’est
pas, dans ce cas, l’objectif à atteindre.
Les plans factoriels de projection ne sont autres que ceux formés par les couples de
vecteurs des bases orthonormées de la DVS du triplet : (V i , V j ) pour voir les points lignes,
ou (U i , U j ) pour voir les poins colonnes. Reste à décider quels sont les k meilleurs plans
factoriels, c’est à dire ceux pour qui les photos obtenues seront porteuses d’informations
interprétables : l’ACP d’ordre k est définie à partir de la DVS en éliminant la part de
bruit incluse dans les données et mesurée grâce au théorème d’Eckart-Young.
7.2.1
Définitions
La matrice X est supposée D-centrée en colonnes à partir d’une matrice T des données
brutes
X = (In − 1In 1I0n D)T .
Le point origine de l’espace des points lignes de X s’interprète comme le point ligne moyen,
1I0n DT , du tableau T . La matrice des covariances entre les variables est V = X 0 DX, celle
des produits scalaires entre les individus W = XM X 0 . A ces matrices sont associés les
opérateurs aux valeurs propres-vecteurs propres de la DVS du triplet.
Opérateurs et inertie du triplet (X, M, D)
• Opérateur des covariances : VM = X 0 DXM
• Opérateur des produits scalaires entre individus : WD = XM X 0 D
• Inertie totale du triplet : kXk2M ⊗D = trace(XM X 0 D) = trace(X 0 DXM )
Expression tirée de la terminologie de la mécanique du point matériel, l’“inertie
totale” des n points lignes Mi pesant chacun pi
n
X
i=1
pi kXi k2M
=
n
X
i=1
pi Xi M Xi0 = trace(XM X 0 D) = kXk2M ⊗D ,
est la mesure du moment d’inertie du nuage des n points par rapport à l’origine des coordonnées, ici le point ligne moyen. Cette expression mesure l’éloignement de l’origine des
points Mi par les carrés de leurs distances pondérés par les poids statistiques.
Dans le cas particulier M = Ip , l’inertie totale trouve une interprétation duale par rapPp Pn
Pp
j
j 2
port aux colonnes de X. En effet, trace(X 0 DX) =
j=1
j=1 Vj =
i=1 pi (Xi ) =
Pp
j=1
Pn
i=1
j
pi (Tij − T )2 est aussi la variance totale c’est à dire la somme des variances
des p variables. Si de plus les variables sont D-centrées réduites l’inertie totale est dans
ce cas, égale à p.
Proposition :
kXk2M ⊗D
= trace(Λr ) =
r
X
λi .
i=1
Preuve : utiliser la DVS du triplet et l’orthogonalité des matrices U et V .
2
ACP d’ordre k du triplet (X, M, D)
La matrice X étant supposée de rang r et D-centrée en colonne, on appelle ACP d’ordre
k, k ≤ r, du triplet (X, M, D), la DVS incomplète de rang k
bk = Uk Λ1/2 Vk0 ,
X
k
telle qu’elle est définie dans le théorème d’Eckart-Young.
Les deux formules de transition s’écrivent à l’ordre k
−1/2
Uk = XM Vk Λk
(∗)
et
−1/2
Vk = X 0 DUk Λk
(∗∗) .
Proposition : L’approximation de rang k de X a pour colonnes (pour lignes) les projections des colonnes (des lignes) de X sur l’espace vectoriel Im Uk (sur Im Vk )
b k = ΠD
X
Uk X
et
0
b k 0 = ΠM
X
Vk X .
2
Preuve : Faisons la preuve pour les colonnes. La deuxième formule de transition (**)
donne
0
ΠD
Uk X = Uk Uk DX
= Uk (X 0 DUk )0
1/2
= Uk Λk Vk0 .
2
Au delà de la définition précédente, l’ACP est une méthode d’analyse et d’exploration
des données basée sur l’examen des points lignes et des points colonnes projetés sur des
espaces de dimensions 1 ou 2 obtenus à partir des bases orthonormées {V1 , . . . , Vk } et
{U1 , . . . , Uk } des deux espaces respectifs Im Xk 0 et Im Xk .
Grâce aux posibilités actuelles des logiciels informatiques concernant la vision à trois
dimensions, il est parfois intéressant de visionner les projections dans les repères
{V1 , V2 , , V3 } et {U1 , U2 , U3 }.
Cas particulier : l’ACP usuelle réduite d’ordre k
L’ACP usuelle réduite, ou ACP normée, est l’ACP d’ordre k du triplet
(X, M = Ip , D =
1
In )
n
où X est formée par les n mesures de p variables quantitatives D-centrées réduites.
Dans ce cas la matrice des covariances V =
1
X 0X
n
est la matrice des corrélations
entre les p variables. Parfois, lorsque les variables sont “homogènes”, c’est à dire ont des
variances du même ordre de grandeur, il n’est pas nécessaire de réduire les variables. On
dit alors que l’ACP est centrée.
Remarques :
R1 Les deux opérateurs VM = n1 X 0 X et WD = n1 XX 0 jouent un rôle symétrique.
On retrouvera cette symétrie des opérateurs dans le cas où, comme D pour les lignes,
M est une matrice diagonale des poids statistiques des points colonnes. L’Analyse
Factorielle des Correspondances est l’exemple type de ce choix.
R2 Dans l’espace des variables, la D-orthogonalité est identique à l’orthogonalité usuelle
< x, y >D = n1 y 0 x = 0 ⇐⇒ y 0 x =< x, y >= 0,
1
n
ΠD
X = ΠX
In
= n1 X( n1 X 0 X)+ X 0 = X(X 0 X)+ X 0 = ΠIXn .
bk et X
R3 Puisque M = Ip et D = n−1 In , le carré de l’erreur d’approximation entre X
s’écrit
r
X
1
2
0
2
b
b
b
b
kX − Xk kM ⊗D = trace[(X − Xk ) D(X − Xk )M ] = kX − Xk kF =
λi .
n
i=k+1
Critère global du choix de l’ordre k
Le théorème d’Eckart-Young conduit à un critère de la qualité globale de l’ACP.
Le pourcentage de l’Inertie Reconstituée à l’ordre k est défini par
Pk
b k k2
kX
λi
M ⊗D
%IR(k) =
× 100 = Pri=1 × 100 .
2
kXkM ⊗D
i=1 λi
Une cassure dans la croissance du diagramme des valeurs {%IR(k) | k = 1, . . . , r}
permet de déterminer l’ordre k à retenir.
Ce diagramme porte souvent le nom de
diagramme de l’inertie cumulée.
La règle empirique précédente fournit, lorsque cela est possible, le nombre k de vecteurs
de base (vecteurs propres) à retenir. Le choix de k devra permettre de retenir des
vecteurs qui pris deux à deux, fourniront de “bons” plans de projection, c’est à dire des
représentations à deux dimensions des points lignes ou colonnes facilement interprétables.
%IC
100
85
1
2
k
r
i
Figure 12 : diagramme des pourcentages d’inertie cumulée ou reconstituée.
Axes factoriels et principaux, composantes principales et facteurs principaux
• Axes factoriels
On note Vk = [V 1 , . . . , V k ] et Uk = [U 1 , . . . , U k ] les matrices dont les colonnes
sont les k vecteurs de base retenus : {V 1 , . . . , V k } vecteurs M -orthonormés dans
l’espace des points lignes (Vk0 M Vk = Ik ) et {U 1 , . . . , U k } vecteurs D-orthonormés
dans l’espace des points colonnes (Uk0 DUk = Ik ).
Un plan factoriel est un espace vectoriel de dimension 2 formé par l’un
des couples d’axes factoriels (V i , V j ) ou (U i , U j ).
On va définir des vecteurs colinéaires à ces vecteurs et de même sens mais
de norme non plus égale à 1 mais égale à la valeur singulière correspondante. Ces
vecteurs vont jouer un rôle capital dans le calcul des projections sur les plans
factoriels des points lignes, respectivement des points colonnes.
• Axes principaux
Les k axes principaux {Aj ∈ (IRp , M ) | j = 1, . . . , k} définis par
Aj =
sont M -orthogonaux et de M -longueur
√
√
λj V j
λj .
La matrice Ak = [A1 , . . . , Ak ], p × k, est telle que
1/2
Ak = V k Λk
A0k M Ak = Λk .
et
La deuxième formule de transition (**) devient
Ak = X 0 DUk .
(∗∗)0
La DVS du triplet permet d’autre part de décomposer la matrice des covariances V
en
V = X 0 DX = V Λr V 0 = Ar A0r .
• Composantes principales
Les k composantes principales {C j ∈ (IRn , D) | j = 1, . . . , k} définies par
Cj =
sont D-orthogonales et de D-longueur
√
√
λj U j
λj .
La matrice Ck = [C 1 , . . . , C k ], n × k, est telle que
1/2
Ck = U k Λk
et
Ck0 DCk = Λk .
La première formule de transition (*) devient
Ck = XM Vk .
(∗)0
La DVS du triplet permet aussi de décomposer la matrice des produits scalaires
entre individus W en
W = XM X 0 = U Λr U 0 = Cr Cr0 .
• Facteurs principaux
On appelle matrice des facteurs principaux la matrice p × k
Fk = [F 1 , . . . , F k ] = M Vk ,
de telle sorte que (*)’ s’écrire
(∗)0
Ck = XFk .
Remarquer que dans le cas particulier M = Ip , Fk = Vk et une composante principale
P
s’écrit C j = XV j = pi=1 X i Vij .
Interprétation des composantes principales par rapport aux variables-colonnes :
Une composante principale
j
j
C = XF =
p
X
X i Fij
i=1
s’écrit comme une combinaison linéaire des p colonnes de X. Pour cette raison,
une composante principale peut être considérée comme l’expression dans la base
canonique, d’une “variable latente”, notée C j , c’est à dire une variable synthétique qui résume linéairement les variables naturelles x1 , . . . , xp .
Le scalaire Fij est le facteur principal qui mesure l’influence de la variable xi
sur la variable C j .
Propriétés statistiques des composantes principales-variables latentes
– P1 : C j est D-centrée.
Le fait que les variables soient D-centrées implique que (*)’ a pour conséquence
que les variables latentes{C j } sont D-centrées : 1I0n DC j = 1I0n DXF j = 0.
p
– P2 : L’écart type de la variable latente C j est λj .
Cela résulte de P1
kC j k2D
j0
j
= C DC =
n
X
pi (Cij )2 = var(C j ) = λj .
i=1
– P3 : Les variables latentes sont deux à deux non corrélées
cov(C i , C j ) = C j 0 DC i = 0,
si i 6= j.
7.2.2
Projections des points lignes
La matrice X étant D-centrée en colonnes, le nuage N des n points lignes {M1 , . . . , Mn }
appartient à l’espace affine Im X 0 , sous-espace de dimension r de l’espace (IRp , M ), et
d’origine le point ligne moyen O calculé sur les données brutes. Pour visionner la position relative des points lignes par rapport à ce point de référence, on pourrait bien sûr,
projeter les points du nuage N sur des axes ou des plans de la base canonique. Mais ces
représentations ne sont pas forcément les plus simples à interpréter. On va voir pourquoi
il est préférable d’utiliser des projections sur des espaces de dimension 1 ou 2 définis à
partir des axes factoriels V j .
Projection des points lignes sur l’ axe factoriel V j
−→
Le vecteur OMl dont l’expression dans la base canonique de (IRp , M ) est le transposé de
la ligne Xl , noté Xl0 , se projette orthogonalement au sens de M sur l’axe V j selon
0
j j0
0
j
j 0
j j
ΠM
V j Xl = V V M Xl = V (Xl M V ) = V Cl .
−→
Le scalaire Clj est la mesure algébrique de la projection du vecteur OMl sur le vecteur
unitaire V j .
Interprétation d’une composante principale C j par rapport aux individus-lignes :
Le nuage N des points lignes se projette sur V j selon les coordonnées du vecteur
C j , voir Figure 13. D’après la propiété P2 d’une composante C j , l’inertie par rapport au
point moyen O, du nuage des points projetés munis des poids pi , est égale à λj .
En effet, les n points projetés sur V i étant donnés par les colonnes de la matrice V i C i0 ,
l’inertie par rapport à O de ces n points s’exprime par la quantité
trace(V j C j 0 DC j V j 0 M ) = trace(V j 0 M V j C j 0 DC j ) = C j 0 DC j = λj .
N
M
k
M1
j
V
j
j
C2
Cn
Axe factoriel j
j
C1
individu moyen : O
C
j
k
Mn
M
2
Figure 13 : Nuage N des points lignes de (IRp , M ) et projections sur l’axe V j .
N’oublions pas que les valeurs propres sont rangées par ordre décroissant λ1 ≥ . . . ≥ λk .
On peut maintenant énoncer le principe de l’Analyse Factorielle.
Principe de l’Analyse Factorielle :
Si on admet que le meilleur “cliché” unidimensionnel est fourni par un axe sur lequel,
en projection, le nuage des points lignes est d’inertie maximale, alors, l’axe factoriel V 1
est le meilleur axe; ensuite, V 2 est meilleur second, orthogonal au premier...
Preuve : Montrons que, parmi tous les vecteurs V ∈ (IRp , M ) de longueur 1,
0 0
M
0
V 1 = arg max
trace((ΠM
V X ) M (ΠV X )D) .
2
kV kM =1
La fonction objectif à maximiser qui est l’inertie des points lignes projetés sur V , s’écrit
0 0
M
0
0
0
0
ϕ(V ) = trace((ΠM
V X ) M (ΠV X )D) = trace(XM V V M X D) = V M VM V .
Ecrivons les équations aux dérivées partielles pour la fonction de Lagrange
L(V, λ) = ϕ(V ) + λ(1 − V 0 M V ),
∇V L(V, λ) = ∇V ϕ(V ) − λ∇V (V 0 M V ) = 2M VM V − 2λM V = 0 .
ce qui donne λ = ϕ(V ) et VM V = λV . D’où la conclusion que le maximum est donné
par V 1 vecteur propre de VM associé à la plus grande valeur propre λ1 .
Montrons seulement que V 2 maximise ϕ(V ) sous les contraintes kV k2M = 1 et V 10 M V = 0.
La restriction de la fonction objectif à l’espace vectoriel V 1⊥ = {V ∈ IRp | V 10 M V = 0},
peut s’écrire ϕV 1⊥ (V ) = V 0 M (V − λ1 V 1 V 10 )M V . Sur V 1⊥ , la méthode de Lagrange
associée à la contrainte kV k2M = 1, conduit à λ = ϕV 1⊥ (V ) et à (V − λ1 V 1 V 10 )M V = λV .
Le maximum est donc réalisé par le couple (V 2 , λ2 ), λ2 plus grande valeur propre de
(V − λ1 V 1 V 10 )M , étant la deuxième valeur propre de VM ...
2
Remarque : Si tous les points lignes ont le même poids, le principe de l’analyse factorielle
est un principe géométrique d’allongement maximum des points projetés sur chacun des
axes.
Projection des points lignes sur un plan factoriel (V i , V j )
Notons [V i , V j ] la matrice p×2 extraite des colonnes de Vk , les propriétés des axes factoriels
impliquent que [V i , V j ]0 M [V i , V j ] = I2 . La matrice de la projection M -orthogonale sur le
plan factoriel Im [V i , V j ], notée ΠM
[V i ,V j ] , se décompose en la somme des projecteurs sur
chacun des axes
M
M
ΠM
[V i ,V j ] = ΠV i + ΠV j .
−→
Le vecteur OMl se projette sur le plan factoriel, appelé (i, j) pour simplifier, selon le
−→
vecteur Oml dont les coordonnées dans le repère (V i , V j ) sont données par (Cli , Clj )
j j
i i
0
ΠM
[V i ,V j ] Xl = V Cl + V Cl .
C
j
j
mk
Ck
j
V
m2
i
individu moyen O
V
i
i
Ck
C
mn
m1
Figure 14 : Projection du nuage des individus sur le plan factoriel (V i , V j ).
La matrice p × n des projections du nuage des n points sur le plan (i, j) est donnée par
0
i i0
j j0
ΠM
[V i ,V j ] X = V C + V C .
La M -orthonormalité des {V i } permet de montrer que l’inertie par rapport à O des points
lignes projetés sur le plan (i, j)
0
M
0 0
i0
i
j0
j
trace[(ΠM
[V i ,V j ] X )D(Π[V i ,V j ] X ) M ] = C DC + C DC = λi + λj ,
est la somme des inerties des points projetés sur chacun des axes.
Pour faire une bonne photo de points lignes, il faut trouver un plan sur lequel en projection,
le nuage des points est d’inertie maximale : alors le plan factoriel (1,2) est le meilleur
plan possible; on peut ensuite tirer les photos (1, 3), (2, 3)...
Aides à l’interprétation des points lignes
Contributions absolues
On désire quantifier la contribution de chaque individu-ligne l à l’expression de l’inertie
du nuage projeté sur l’axe factoriel V j . On a vu que l’inertie autour du point ligne moyen
est caractérisée par la variance de C j , c’est à dire C j 0 DC j = λj ; alors
n
X
pl j 2
(C ) .
1=
λj l
l=1
La contribution absolue de l’individu l à la dispersion du nuage projeté sur l’axe j est
CT Ajl =
pl j 2
(C ) .
λj l
Si tous les individus ont le même poids statistique pl = 1/n alors la dispersion ne
dépend que du carré de la coordonnée de la projection de l’individu sur l’axe. Dans ce
cas, les individus à forte CT A sont ceux les plus éloignés de l’individu moyen. Ce n’est
plus forcément le cas si les poids statistiques ne sont pas identiques.
Contributions relatives
Tous les points d’une photo uni ou bi-dimensionnelle ne sont pas visibles avec la même
précision. En conséquence, on ne pourra interpréter la position relative de deux points
projetés ml1 et ml2 que si elle reflète bien la position des points Ml1 et Ml2 de l’espace
(IRp , M ). De façon plus pratique, on mesurera la proximité relative entre ml et Ml par le
−→
−→
carré du cosinus du M -angle entre les vecteurs Oml et OMl
−→
k Oml k2M
2
cos θl =
−→
k OMl k2M
−→
−→
−→
k Oml k2M
k Oml k2M
k Oml k2M
=
=
=
Pr
j 2.
Xl M Xl0
Wll
(C
l)
j=1
On dira que l’individu l est bien représenté par ml si cette expression, appelée aussi
contribution relative de l’axe ou du plan factoriel à la représentation de l’individu l, est
voisine de 1, mal représentée si elle est voisine de 0.
i
i
j
Notons mil et mi,j
l les projections de Ml sur l’axe V respectivement sur le plan (V , V ).
i
j
L’orthonormalité de V et V implique
−→
−→
i
Omi,j
l =Oml
−→
+ Omjl dont l’expression dans la base
canonique est V i Cli + V j Clj . Il vient
kV i Cli + V j Clj k2M = kV i k2M (Cli )2 + kV j k2M (Clj )2 = (Cli )2 + (Clj )2 .
On obbtient ainsi les contributions relatives de l’axe i et du plan (i, j) à l’individu l
(Cli )2 + (Clj )2
(C i )2
2 i
2 j
CT Rli = cos2 θli = Pr l j et CT Rli,j = cos2 θli,j = P
r
j 2 = cos θl + cos θl .
2
j=1 (Cl )
j=1 (Cl )
De façon évidente, la somme des contributions relatives pour un même individu l
P
est égale à 1, ri=1 cos2 θli = 1 .
7.2.3
Projections des vecteurs colonnes
Dans l’ACP usuelle, les colonnes sont plutôt considérées comme l’expression de vecteursvariables, à la différence des lignes considérées comme des points.
La proximité de
deux variables est basée sur l’examen du coeficient de corrélation qui d’un point de vue
géométrique, est le cosinus du D-angle entre ces deux vecteurs. Il sera toujours possible, dans l’ACP généralisée de considérer les points extrémités de ces vecteurs et appelés
points colonnes.
Projections sur les axes et plans factoriels
De façon duale à celle des lignes, les matrices n×n de projection D-orthogonale sur un axe
factoriel Im U i = Im C i et sur un plan factoriel Im [U i , U j ] = Im [C i , C j ] sont données
par
i i0
ΠD
Ui = U U D
et
D
D
ΠD
[U i ,U j ] = ΠU i + ΠU j .
La mesure algébrique de la projection d’un vecteur-variable xl sur un vecteur de base U i
est égale à Ail . En effet, la formule de transition (**)’ donne
l
i i
ΠD
U i X = U Al
et
l
i i
j j
ΠD
[U i ,U j ] X = U Al + U Al .
j
A
j
U
i
Ak
U
X
i
A
i
k
j
Ak
Figure 15 : Projection d’une variable xk sur le plan factoriel (U i , U j ).
L’axe principal Ai est le vecteur des coordonnées des projections des p points colonnes
sur l’axe factoriel U i .
Coefficient de corrélation entre la variable latente C j et une variable xi
Une composante C j s’interprète comme le vecteur des coordonnées des projections du
nuage des indvidus sur l’axe factoriel V j mais aussi comme l’expression d’une variable
latente C j dans la base canonique de (IRn , D). Afin de pouvoir donner un nom à cette
variable synthétique il est nécessaire d’examiner quelles sont les variables qui lui sont
statistiquement voisines. L’examen des coefficients de corrélation entre C j et les variables
xi , i = 1, . . . , p,
r(C j , xi ) =
X i0 DC j
X i0 DXM V j
λj Vij
Aji
cov(C j , xi )
p
p
p
=
=
=
=
,
σ(C j )σ(xi )
kX i kD
λj kX i kD
λj kX i kD
λj kX i kD
permet de sélectionner celles qui sont fortement corrélées avec la variable latente.
Cas de l’ACP usuelle réduite
Dans le cas particulier, σ(xi ) = kX i kD = 1, et
r(C j , xi ) = Aji .
Les points colonnes sont situés sur la sphère unité de (IRn , D). Ils se projettent sur
un plan factoriel (U i , U j ) à l’intérieur du cercle trigonométrique appelé ”cercle des
corrélations”. Dans ce cas, la projection d’un point colonne sur un axe factoriel est la
corrélation de la variable avec la variable latente correspondante.
C
j
A
j
j
U
2
j
mk
Ck
j
X
A2
j
V
m2
i
i
individu moyen O
V
i
i
Ck
C
A1
i
i
A2
A
j
X
i
U
3
A1
X
1
mn
m1
Figure 16 : Visualisation duale des plans factoriels (i, j) pour les individus et les
variables dans l’ACP usuelle normée. Cercle des corrélations.
La Figure 16, présente les deux représentations duales individus-variables sur les plans
factoriels (i, j). Un plan factoriel est de bonne qualité globale si λi + λj est grand. Les
points lignes bien représentés dans ce plan sont assez nombreux; on peut interpréter leur
position relative au point moyen, en expliquant les variables latentes grâce aux variables
naturelles bien représentées (voir paragraphe suivant). Dans ce cas particulier de l’ACP
usuelle, une variable est bien représentée dans un plan factoriel si son point colonne associé
est proche du cercle des corrélations. Sur la Figure 5, X 1 et X 2 sont bien représentées,
alors que X 3 ne l’est pas. L’individu numéro n a une valeur au dessus de la moyenne pour
la variable x1 , inférieure à la moyenne pour x2 ...
Aides à l’interprétation des variables
Contributions absolues : cas où M est diagonale
Les ACP les plus courantes concernent le cas où M = diag(m1 , . . . , mp ) : M = Ip (ACP
usuelle) ou bien M est la matrice des poids statistiques des colonnes (Analyses Factorielles
des Correspondances simples et multiples). On a vu que la projection d’une variable x i
sur l’axe U j à pour mesure algébrique Aji , voir Figure 4. Dans ce cas particulier, le nuage
des points colonnes pondérés {(xi , mi )} projetés sur l’axe j, a pour inertie Aj 0 M Aj = λj ;
ce qui donne
1=
p
X
mi
i=1
λj
(Aji )2 .
On appelle contribution absolue de la variable xi à l’inertie sur l’axe j, l’expression
CT Aji =
mi j 2
(A ) .
λj i
Comme pour les CTA des points lignes, la CTA d’un point colonne prend en compte non
seulement l’éloignement de l’origine (Aji )2 mais aussi le poids mi d’un point colonne.
Contributions relatives
On dira qu’un point colonne xk est bien représenté sur l’axe U i ou sur le plan (U i , U j ) si
le carré du cosinus du D-angle entre le vecteur projeté et le vecteur colonne initial, est
voisin de 1.
On appelle contribution relative de l’axe ou du plan factoriel à la variable X k
CT Rki
= cos
2
θki
(Aik )2
(Aik )2 + (Ajk )2
i,j
2 i,j
= Pr
= cos2 θki +cos2 θkj .
j 2 ou CT Rk = cos θk = Pr
j 2
j=1 (Ak )
j=1 (Ak )
En effet, la contribution relative de l’axe i à la variable k est le carré du coefficient de corrélation entre xk et C i . La contribution relative du plan factoriel (i, j) à la
variable k est le coefficient de détermination R2 entre xk et le couple de variables latentes
P
(C i , C j ). Remarquons que le dénominateur, rj=1 (Ajk )2 = Vkk = kX k k2D , est égal à 1 dans
le cas d’une ACP usuelle sur variables centrées réduites.
7.2.4
Eléments supplémentaires
Les individus et variables du tableau X sur lesquels a été effectué une ACP sont dits
“actifs”. Ils ont été visualisés et interprétés grâce aux bases orthonormées qui ont servi à
les montrer en photo.
On peu représenter sur celles ci des individus ou variables n’ayant pas pris part à la
détermination des axes factoriels. Ces individus ou variables dits “supplémentaires”
peuvent apporter des compléments dans l’analyse.
variables
individus et
variables
Y
X
suppléactifs
mentaires
individus
Z
supplémentaires
Variables supplémentaires
Soit Y le tabeau des variables supplémentaires mesurées sur les mêmes n individus
et transformées comme les variables actives l’ont été : Y est centré mais peut être
éventuellement réduit... Grâce à la deuxième formule de transition (**)’, la coordonnée
de la variable Y k sur l’axe factoriel actif U j , s’écrit
n
Ajk
Y k0 DC j X pi
p Yik Cij .
= p
=
λj
λj
i=1
On peut représenter la variable suplémentaire k sur un plan factoriel et par exemple,
visualiser par l’ACP usuelle, les corrélations de Y k avec les variables actives...
Individus supplémentaires
Le taleau Z des individus supplémentaires est supposé D-centré par rapport à l’individu
moyen actif 1I0 DT . Ce tableau Z a été réduit si les colonnes de X l’ont été, en utilisant
les écarts types des variables actives. La première formule de transition (*)’ permet de
calculer la coordonnée sur l’axe actif V j , de la projection M -orthogonale de l’individu l
Zl M A j
Clj = p
.
λj
On peut visualiser sur le plan factoriel (i, j) une population d’individus supplémentaires
et la comparer à celle des individus actifs.
7.3
Exercices
Exercice 1
Soit X une matrice réelle n × p dont le rang est r. Comparer la décomposition en
valeurs singulières des deux triplets (X, M, D) et (Z = D 1/2 XM 1/2 , Ip , In ).
Exercice 2 : Approximation d’une matrice par une matrice de rang donné
Soit Z une matrice réelle n × p de rang r dont la décomposition
√
√
1/2
1/2
en valeurs singulières s’écrit Z = Ur Λr Vr0 où Λr
= diag( λ1 , . . . , λr ) avec
Théorème :
λ1 ≥ . . . ≥ λr > 0. On note Ek l’ensemble des matrices n × p de rang fixé k (k ≤ r) et
{Eij (r, k)}i,j la base canonique pour les matrices r × k. Alors
min kZ − Zk k2F = kZ − Ẑk k2F =
Zk ∈Ek
1/2
où Ẑk = Uk Λk Vk0 avec Uk =
√
√
diag( λ1 , . . . , λk ). 2
Pk
i=1
r
X
λi ,
i=k+1
Ur Eii (r, k), Vk =
Pk
i=1
1/2
Vr Eii (r, k) et Λk
=
1. Exprimer Uk (respectivement Vk ) en fonction des colonnes de Ur (respectivement
Vr ). Quelle est la valeur de Ẑk lorsque k = r?
2. Sachant que la norme de Frobénius k.kF , (kXk2F = trace(X 0 X)) est invariante par
transformation orthogonale, montrer que’il existe deux matrice B et C respectivement n × k et k × p de rang maximum telles que
kZ − Zk k2F = kΛ − BCk2F = φ(B, C)
où Λ est la matrice n × p de la décomposition en valeurs singulières complète contenant les valeurs singulières de Z.
3. L’objectif étant maintenant de minimiser φ(B, C), montrer dans un premier temps
que pour B fixé,
def
Ĉ(B) = arg min φ(B, C) = (B 0 B)−1 B 0 Λ
C
et que minimiser φ(B, Ĉ(B))revient à maximiser ϕ(B) = trace(B(B 0 B)−1 B 0 ΛΛ0 ).
4. Utiliser les propriétés de ΠB = B(B 0 B)−1 B 0 pour montrer que
ϕ(B) = kΠB Λk2F .
Ecrire Λ dans la base canonique {Eij (n, p)}i,j des matrices n × p et montrer que
ϕ(B) =
r
X
λ i ai ,
i=1
où ai = kΠB ei (n)k2F .
5. Démontrer que 0 ≤ ai ≤ 1, pour i = 1, . . . , n et que
déduire que
max ϕ(B) =
B
et que la maximum est réalisé pour B̂ =
6. Conclure en montrant que
Pk
k
X
Pn
i=1
ai = rang(B) = k. En
λi
i=1
i=1
Eii (n, k). Calculer Ĉ(B̂).
Ẑk = arg min kZ − Zk k2F .
Zk ∈Ek
L’ACP usuelle normée ou non
Exercice 3
Une étude gastronomique a conduit à apprécier le service, la qualité et le prix de quatre
restaurants. Pour cela, un expert a noté ces restaurants avec des notes allant de -3 à 3.
Les résultats sont les suivants
Restaurant Service
Qualité
Prix
R1
-2
3
-1
R2
-1
1
0
R3
2
-1
-1
R4
1
-3
2
La matrice des covariances est

5/2 −3 1/2




V =
−3
5
−2


1/2 −2 3/2
et celle des corrélations (aux erreurs d’arrondi près)

1
−0.85 0.26

R=
1
−0.73
 −0.85
0.26 −0.73
1


.

Pour l’étude , on effectuera une ACP centrée avec des poids équirépartis.
1. Etude des valeurs propres
a. Vérifier simplement que V admet une valeur propre λ3 = 0.
b. On donne λ1 = 30.5/4. En déduire λ2 .
2.
c. Calculer les pourcentages d’inertie. Quelle est la dimension à retenir?



0.5
0.65





a. On donne, aux erreurs d’arrondi près, v1 = 
 −0.8  et v2 =  0.11
0.3
−0.75
Calculer les composantes principales.


.

b. Représenter les individus dans le plan principal (1,2).
3.
a. Déterminer les corrélations entre les variables et les composantes.
b. Représenter les variables sur le cercle des corrélations dans le plan factoriel
(1,2).
c. Interpréter les résultats.
Exercice 4
Soit la matrice X = [X 1 , X 2 , X 3 ] dont les

1

R=
 ρ
−ρ
variables ont pour matrice des corrélations

ρ −ρ

1 ρ 
,
ρ 1
avec−1 ≤ ρ ≤ 1. On désire effectuer une ACP centrée réduite de X.


1

1 
.
1. Vérifier que R admet pour vecteur propre √ 
−1

3
1
2. Déterminer les autres valeurs propres et vecteurs propres de R.
3. Quelles sont les valeurs possibles de ρ?
4. Justifier le fait que l’ACP n’a d’intérêt que si −1 < ρ < 0.
5. Calculer dans ce cas les pourcentages de variance expliquée.
6. Comment s’interprète par rapport à X 1 , X 2 , et X 3 l’unique composante à retenir
ici?
Exercice 5
Soit la matrice
T =
√

2 2 3
 3 1 2

10 
 1 0 3
 2 1 4
2 1 3






des mesures de 5 individus munis de poids statististiques égaux, sur 3 variables notées
T 1 , T 2 et T 3 . On désire effectuer une Analyse en Composantes Principales (ACP) sur
variables centrées-réduites.
1. Calculer l’individu moyen, le vecteur (σ1 , σ2 , σ3 ) des écarts types et la X des variables
centrées-réduites.
2. Calculer la matrice R des corrélations.
3. Calculer les éléments propres de R.
√
4. Les deux premiers vecteurs propres de R associés aux valeurs propres λ1 = 1 + 2/2
et λ2 = 1, sont :
 √ 
2
1
v1 =  1 
2 −1
et


0
1
v2 = √  1  .
2 1
Déterminer les composantes principales c1 et c2 dont on vérifiera les propriétés
statistiques.
5. Représenter les individus et les variables dans les plans factoriels (1,2). Quelle est
l’interprétation des variables c1 et c2 ?
√
√
√
6. Représenter dans le plan (1,2) l’individu supléméntaire ( 10, 2 10, 2 10).
Exercice 6 : ACP usuelle normée et ACP du triplet (X, diag(σ1−2 , . . . , σp−2 ), n−1 In )
Soit T la matrice des n mesures sur p variables quantitativesqet X la matrice des
P
variables centrées au sens des poids statistiques n1 . On note σj = n1 ni=1 (Xij )2 , l’écart
type de la variable X j et Y = Xdiag(σ1−1 , . . . , σp−1 ) la matrice des variables centrées
réduites.
1. Etude de l’ACP normée d’ordre k du triplet (Y, M = Ip , D = n−1 In ) :
a. Ecrire l’expression des opérateurs VY M = Y 0 DY M et WY D = Y M Y 0 D
b. Ecrire la définition des axes principaux et des composantes principales pour
l’ACP normée.
2. Etude de l’ACP d’ordre k du triplet (X, M = diag(σ1−2 , . . . , σp−2 ), D = n−1 In ) :
a. Ecrire l’expression des opérateurs VX M = X 0 DXM et WX D = XM X 0 D
b. Ecrire la définition des axes principaux et des composantes principales pour
cette l’ACP.
3. Comparer les résultats des questions 1 et 2. Conclusions quant-à la représentation
des individus et des variables pour ces deux ACP?
Exercice 7 : ACP d’un ensemble de notes
Les données jointes ont été restreintes pour les besoins de ce problème à 10 étudiants.
Pour chaque individu on dispose d’un ensemble de 3 notes , Mathématiques (“Maths”),
Physique (“Phys”) et Technologie (“Techn”) ainsi que d’une information supplémentaire
sur la provenance de l’étudiant fournie par la variable booléenne indicatrice de l’origine
(“Orig”).
Les résultats de l’Analyse en Composantes Principales des 3 premières variables actives
centrées sont donnés en annexe.
a. Analyser les résultats. Dire pourquoi le premier axe factoriel a ses coordonnées
positives. Dans ce cas, le premier axe est appelé “axe de taille” le second “axe de
forme”.
b. Pour examiner si la provenance des individus est liée aux résultats obtenus,
représenter la variable “Orig” en variable supplémentaire sur le plan factoriel (1,2).
c. Situer dans le plan factoriel (1,2) un individu supplémentaire dont les notes seraient
: Math = 12, Phys = 12, Techn = 12.
__________________________________________________________________
ANNEXE :
-----Notes et Origine
Math Phys Techn Orig
1
17
12
13
1
2
9
10
8
0
3
12
12
13
1
4
15
12
14
1
5
9
10
11
0
6
13
15
12
1
7
11
9
10
0
8
14
15
16
1
9
9
11
11
0
10
13
14
13
1
________________________________________________________________
moyenne et variances des variables
Matrice des covariances
Math Phys Techn
moy 12.2
12 12.1
var 6.76
4 4.49
Math Phys Techn
Math 6.76 2.9 3.98
Phys 2.90 4.0 3.10
Techn 3.98 3.1 4.49
__________________________________________________________________
Inertie totale = 15.25
__________________________________________________________________
val.pro. % inert. % cumul.
1 11.9718
78.50
78.50
2
2.3033
15.10
93.60
3
0.9750
6.39
100.00
_______________________________________________________________
aides a l’interpretation pour les u.s. :
Composantes Principales
c1
c2
c3
1 3.795 -3.022 0.560
2 -5.417 -0.263 1.278
3 0.365 0.367 -0.763
4 2.981 -1.409 -0.758
5 -3.743 0.508 -1.089
6 1.893 1.499 1.955
7 -3.395 -1.793 -0.325
8 4.812 1.849 -0.936
9 -3.276 1.197 -0.534
10 1.985 1.067 0.611
Contributions absolues des 10 u.s. pour les 3 premieres composantes
CTA1 CTA2 CTA3
1 1203 3965 322
2 2451
30 1675
3
11
58 597
4 743 863 589
5 1170 112 1215
6 299 975 3919
7 963 1396 108
8 1934 1484 899
9 896 622 292
10 329 494 383
Contributions relative des 3 premieres composantes pour les 10 u.s.
COS1 COS2 COS3
1 6039 3829 132
2 9452
22 526
3 1569 1583 6847
4 7763 1735 502
5 9066 167 767
6 3713 2328 3959
7 7764 2165
71
8 8435 1245 319
9 8620 1151 229
10 7226 2088 685
_______________________________________________________________
aides a l’interpretation pour les variables :
Axes Principaux
a1
a2
a3
Math 2.374 -1.029 0.261
Phys 1.615 1.046 0.548
Techn 1.932 0.390 -0.779
Contributions absolues des 3 variables pour les 3 premiers axes
CTA1 CTA2 CTA3
Math 4706 4594 700
Phys 2178 4746 3077
Techn 3117 660 6223
Contributions relative des 3 axes pour les 3 premieres variables
COS1 COS2 COS3
Math 8334 1565 101
Phys 6517 2733 750
Techn 8310 339 1351
_______________________________________________________________
2
Phys
1.0
8
6
9
0.5
1
10
−1
7
−3
1
−4
−2
0
2
4
−1.0
−0.5
4
Techn
0.0
0
a 2 2.3033 ( 15.1 %)
3
2
−2
c 2 2.3033 ( 15.1 %)
5
Math
0.0
0.5
c 1 11.9718 ( 78.5 %)
1.0
1.5
2.0
a 1 11.9718 ( 78.5 %)
Figure 17 : plans factoriels (1, 2) pour les individus et les variables de l’ACP centrée
d’un ensemble de notes.
L’Analyse Factorielle Discriminante (AFD)
Exercice 8 : L’AFD ou ACP du triplet (G, V−1 , ∆)
Soit X la matrice, supposée de rang p, de l’échantillon d’apprentissage de n mesures sur
p variables quantitatives centrées au sens des poids statistiques stockés dans la matrice
diagonale D = diag(p1 , . . . , pn ). On dispose en outre d’une partition des n individus en
S S
q groupes : {1, . . . , n} = I1 . . . Iq où Ii = {k ∈ {1, . . . , n} | k ∈ groupe i}. Soit ∆ =
P
diag(P1 , . . . , Pq ) la matrice diagonale des poids statistiques des groupes : Pi = j∈Ii pj
est le poids du groupe i. On note y la variable qualitative à q modalités caractérisant
l’appartenance des n individus aux q groupes : yk = i signifie que l’individu k appartient
au groupe i. Soit Y la matrice n × q, du codage disjonctif complet de y : Y = [Yki = δyk i ].
L’objectif de l’Analyse Factorielle Discriminante (AFD), ne pas confondre avec Analyse
Factorielle des Données, est de déterminer des axes factoriels de IR p sur lesquels,
en projection, les individus moyens des q groupes ont une inertie maximale.
La métrique utilisée sur IRp est V−1 = (X 0 DX)−1 .
1. Construction et propriétés de la matrice G, q × p, des individus moyens:
a. Dire pourquoi ∆ = Y 0 DY est bien une métrique sur IRq et V−1 est une métrique
sur IRp ? L’individu moyen du groupe i, la ième ligne de G, est défini par
1 X
Gi =
pj Xj . Vérifier que G = ∆−1 Y 0 DX.
Pi j∈I
i
b. Montrer que G est ∆-centrée. Soit B = G0 ∆G la matrice p × p des covariances
Q
QD
entre les groupes (“Between”). Montrer que B = X 0 D D
Y X, où
Y est la
matrice de projection D-orthogonale sur Im Y .
2. Etude de l’ACP d’ordre k du triplet (G, V−1 , ∆) :
a. Ecrire l’expression de l’opérateur des covariances de ce triplet en fonction de B
et de V. Soient {V 1 , . . . , V k } les k premiers vecteurs propres de cette matrice
(les axes factoriels appelés ici axes discriminants). Quelle est l’expression du
facteur principal F i , appelé facteur discriminant, en fonction de V i ? Quelle
est la matrice qui admet les {F i } comme vecteurs propres?
b. On représente sur l’axe factoriel V i , les n individus de l’échantillon
d’apprentissage comme individus supplémentaires.
Donner l’expression du
vecteur di de IRn , appelé ici variable discriminante, donnant les coordonnées
de ces points sur l’axe V i .
7.4
Formulaires
ACP usuelle d’ordre k du triplet (X, M = Ip , D = n−1 In )
7.4.1
T ; n×p
X = (In − n−1 1I1I0 )T
V = n−1 X 0 X
n individus (actifs), p variables quantitatives (actives)
tableau des variables centres
matrice des covariances (des corrlations si variables rduites)
V V i = λi V i
λ1 ≥ . . . ≥ λ k
{V 1 , . . . , V k }
Pp
1
λi = trace(V) = Variance totale = Inertie
{A1 , . . . , Ak }
Facteurs principaux, V i ∈ IRp , kV i k2 = 1, V i0 V j = 0
√
√
Axes principaux, Ai = λi V i , kAi k2 = λi , Ai0 Aj = 0
{C 1 , . . . , C k }
Composantes principales, C i ∈ IRn
C i = XV i = X 1 V1i + . . . + X p Vpi
moy(C i ) = 0 ; var(C i ) = λi ; cov(C i , C j ) = 0, i 6= j
C i vecteur propre de n−1 XX 0 associ λi ; W = XX 0
r(C j , X i ) = Aji /σ(X i )
bk =
X
k
X
1
√ C i Ai0
λi
i=1
Contributions absolues
bk k2F = n
Approximation de rang k de X ; kX − X
de l’individu k l’axe i : CT Aik = (Cki )2 /(nλi ),
p
X
λi
i=k+1
n
X
CT Aik = 1
k=1
de la variable k l’axe i : CT Aik = (Aik )2 /λi ,
p
X
CT Aik = 1
k=1
p
Contributions relatives
de l’axe i l’individu k : CT Rki = (Cki )2 /Wkk ,
X
CT Rki = 1
i=1
de l’axe i la variable k : CT Rki = (Aik )2 /Vkk ,
Formules de transition
7.4.2
i
i
√
C = XA / λi
DVS du triplet (X, M, D)
;
i
0
i
√
A = X C /(n λi )
p
X
i=1
CT Rki = 1
DVS du triplet (Xn×p , Mp×p , Dn×n ) ;
1/2
−1/2
X = U Λr V 0 = CΛr
A0 ;
rang (X) = r
Λr = diag(λ1 , . . . , λr ) ;
λ1 ≥ . . . ≥ λ r > 0
VM = X 0 DXM
Opérateurs
X DXM V = V Λr
XM X 0 DU = U Λr
X 0 DXM A = AΛr
XM X 0 DC = CΛr
Pr
= trace(VM ) = trace(WD) = i λi
Inertie totale kXk2M ⊗D
Espaces
Axes Principaux
√
A i = λi V i
Individus
Bases M ⊥ de Im (X 0 ) ⊂ (IRp , M )
V = [V 1 , . . . , V r ],
V 0 M V = Ir
A = [A1 , . . . , Ar ],
A0 M A = Λ r
√
kA kM = λi
i
i
kV kM = 1,
WD = XM X 0 D
0
Composantes Principales
1/2
A = V Λr
(**)’
−1/2
A = X 0 DU = X 0 DCΛr
Facteurs Principaux F = M V
V = AA0
Ci =
Variables
Bases D ⊥ de Im (X) ⊂ (IRn , D)
U = [U 1 , . . . , U r ],
1
r
U 0 DU = Ir
kU kD = 1,
λi U i
1/2
C = U Λr
(*)’
−1/2
C = XM V = XM AΛr
0
C = [C , . . . , C ],
i
√
C DC = Λr
√
kC kD = λi
i
W = CC 0
= XF
Bibliography
[1] X. Bry. Analyses Factorielles Simples, Economica, Paris, 1995.
[2] X. Bry. Analyses Factorielles Multiples, Economica, Paris, 1996.
[3] F. Cailliez et J. P. Pages, Introduction à l’Analyse des Données, SMASH, Paris, 1976.
[4] P. G. Ciarlet. Introduction à l’Analyse Numérique Matricielle et à l’Optimisation, Masson, Paris,
1990.
[5] European Courses in Advanced Statistics. Methods for Multidimensional Data Analysis, Dipartimento di Matematica e Statistica, Università di Napoli, 1987.
[6] M. J. Greenacre. Theory and Applications of Correspondence Analysis, Academic Press, London,
1984.
[7] P. Lascaux et R. Theodor. Analyse Numérique Matricielle Appliquée à l’Art de l’Ingénieur, tome 1,
Masson, Paris, 1986.
[8] J. R. Magnus et H. Neudecker. Matrix Differential Calculus with Applications in Statistics and
Econometrics, Wiley & Sons, Chichester, 1988
[9] C. R. Rao et S. K. Mitra. Generalized Inverse of Matrices and Its Applications, Wiley, New-York,
1971.
[10] G. Saporta. Probabilités, Analyse de Données et Statistique, Technip, Paris, 1990.
133
Téléchargement