Telechargé par Chadha Mhalla

Part-AD-MMD-mars-2018-cor[2171]

publicité
ANALYSE DES DONNEES (Correction Partiel)
Master M1 MMD - MA, 19 mars 2018
Calculatrice autorisée, documents autorisés : 2 feuilles recto-verso.
Barême approximatif : 10 points pour chacun des deux exercices.
Exercice 1
On considère un nuage N, constitué de n individus (xi )1≤i≤n , chaque individu a un poids
pi > 0. On a p variables d’où un tableau X de format n × p, on note Y le tableau centré et r le
rang de Y.
Les résultats de l’ACP de N, l’espace ’ p étant muni de la métrique M = I p et ’n de la
métrique D p , sont notés comme suit :
- le α ème vecteur axial factoriel (pour le nuage des individus) est noté uα ,
- la α ème valeur propre est notée λα ,
- la α ème composante principale du nuage des individus est notée ψα ,
- pour tout λα , 0, vα =
ψ
√α ,
λα
avec α ∈ {1, . . . , p}.
On note 1n le vecteur de ’n dont toutes les composantes sont égales à 1.
1. Décomposition de Y
(a) Montrer que
p
X
uα u0α = I p .
α=1
p
X
Indication : on pourra calculer, pour tout 1 ≤ β ≤ p, ( uα u0α )uβ , puis conclure.
α=1
solution
Puisque la famille (uα )1α≤p est une famille orthonormale de ’ p , on a u0α uβ = 0 si
α , β et u0α uβ = 1 si α = β. On en déduit que
(
p
X
uα u0α )uβ
α=1
=
p
X
uα u0α uβ ,
α=1
= uβ .
De plus comme la famille (uα )1α≤p est une base, on en conclut que
p
X
uα u0α = I p .
α=1
(b) En déduire que
r p
X
λα vα u0α .
Y=
α=1
solution
Puisque Y est de rang r, les r premières valeurs propres sont non nulles, on peut donc
définir les vecteurs vα pour tout 1 ≤ α ≤ r. Le calcul donne
r p
r
X
X
0
ψα u0α ,
λα vα uα =
α=1
α=1
=
r
X
Yuα u0α ,
α=1
=
p
X
Yuα u0α , car Yuα = 0 si α > r
α=1
= Y.
(c) Réciproquement, en remplaçant r par un entier naturel q ≤ r, on considère un tableau
T défini par
q
X
√
T=
aα wα tα0 ,
α=1
où
— les réels aα forment une suite décroissante : a1 ≥ a2 ≥ · · · ≥ aq > 0.
— la famille (tα )1≤α≤q est une famille orthonormale de ’ p .
— la famille (wα )1≤α≤q est une famille D p -orthonormale de vect(1n )⊥ .
On effectue l’ ACP du tableau T , l’espace ’ p étant muni de la métrique M = I p et
’n de la métrique D p .
i. Calculer T 0 D p 1n . En déduire que le tableau T est centré.
solution On commence par montrer que le tableau T est centré, en effet
T D p 1n =
0
q
X
√
aα tα w0α D p 1n = 0,
α=1
car la famille (wα )1≤α≤q est une famille orthonormale de vect(1n )⊥ .
On en déduit que le produit scalaire de t j , 1 ≤ j ≤ p, avec 1n est nul pour la
métrique D p soit
n
X
pi tij = 0
i=1
ce qui correspond à la moyenne de t j . Ainsi toutes les variables sont centrées.
ii. Montrer que les réels aα sont les valeurs propres non nulles, que pour tout 1 ≤
α ≤ q, tα est un axe factoriel associé à la valeur propre aα et que la composante
√
principale associée à tα est aα wα .
solution
La matrice de variance est alors
V = T 0 D p T,
q
q
X
X
√
√
=
aα tα w0α D p
aβ wβ tβ0
α=1
=
q
X
α=1
β=1
aα tα D p tα0 .
On a pour 1 ≤ α ≤ q
Vtα = aα tα
On complète la famille (tα )1≤α≤q en une base orthonormale de ’ p (tα )1≤α≤p , on a
pour tout r + 1 ≤ α ≤ p
Vtα = 0
On en déduit que les réels aα sont les valeurs propres non nulles, que pour tout
1 ≤ α ≤ q, tα est un axe factoriel associé à la valeur propre aα .
Enfin
√
ψα = T tα = aα wα .
2. Approximation de Y par une matrice de rang inférieur à r Soit q un entier inférieur
à r, on considère le tableau Y ∗ avec les q premiers termes de la somme
Y∗ =
q
X
p
λα vα u0α (1).
α=1
(a) Déterminer le noyau de Y ∗ , ker Y ∗ , puis en déduire le rang de Y ∗ .
solution
Soit u ∈ ker Y ∗ , alors
Y ∗ u = 0,
soit
q
X
p
λα vα u0α u = 0.
α=1
ou encore
q
X
p
λα < uα , u > vα = 0.
α=1
comme la famille (vα )α est libre, et que les q premières valeurs propres sont non
nulles, on en déduit que
u ∈ vect(u1 , · · · , uq )⊥ .
Réciproquement tout vecteur de vect(u1 , · · · , uq )⊥ est dans ker Y ∗ donc
ker Y ∗ = vect(u1 , · · · , uq )⊥ .
On en déduit que le rang de Y ∗ est p − (p − q) = q.
(b) La matrice Y comporte n × p termes, combien de termes sont ils nécessaires pour
construire la matrice Y ∗ à partir de l’équation (1). solution La matrice Y ∗ nécessite
q(n + p + 1) termes au lieu des np termes de Y.
3. Qualité de l’approximation
(a) L’espace ’ p étant muni de la métrique M = I p et ’n de la métrique D p , calculer
l’inertie totale du nuage associée au tableau Y ∗ notée IT∗ en fonction des valeurs
propres (λα )1≤α≤q .
solution
On a
IT∗ = T r((Y ∗ )0 Y ∗ ),
q
X
= T r( λα uα u0α ),
α=1
=
q
X
λα T r(u0α uα ), car T r(AB) = T r(BA),
α=1
=
q
X
λα .
α=1
(b) On définit la qualité de l’approximation par
IT∗
τq = .
IT
Calculer τq en fonction des valeurs propres (λα )1≤α≤p . Que représente τq pour l’ACP
du tableau Y ?
solution
On a
Pq
λα
τq = Pα=1
.
r
α=1 λα
Il s’agit du taux d’inertie expliqué par l’espace généré par les q premiers axes vectoriels.
Exercice 2
On considère le tableau de données, noté X, qui est défini par :

 1 1
 5 1
X = 
 1 −1
1 3
−3
−1
−1
1






où la i ème ligne désigne l’individu xi et la j ème colonne désigne la variable x j .
Chaque individu possède un poids égal à 1/4. On considère les résultats de l’ACP du tableau X
lorsque ’4 est muni de la métrique identité.
1. Déterminer le tableau centré Y.
solution
On a

 −1 0
 3 0
Y = 
 −1 −2
−1 2
−2
0
0
2






2. Calculer V et montrer que 1 et 3 sont les seules valeurs propres de V.
solution
On a


 3 0 0 


V =  0 2 1 


0 1 2
Le polynôme caractéristique donne (3 − λ)2 (1 − λ), donc 1 et 3 sont les seules valeurs
propres.
 
 1 
 
3. Montrer que u1 =  0  est un vecteur propre de V que l’on utilisera comme axe facto 
0
riel.
Déterminer les autres axes factoriels en choisissant des vecteurs dont la seconde coordonnée est positive.
 


 0 
 0 
 


solution On a Vu1 = 3u1 . Par calcul, on obtient u2 = √12  1  et u3 = √12  1  .
 


1
−1
4. Calculer les trois composantes principales , notée ψ1 , ψ2 et ψ3 en fonction des variables
initiales y1 , y2 et y3 .
solution
2
3
2
3
ψ1 = Yu1 = y1 , ψ2 = y √+y2 et ψ3 = y √−y2 .
5. Représenter les quatres individus dans le plan factoriel constitué des deux premiers axes.
solution
4
2
3
1
6. Calculer la contribution relative de chaque individu à l’inertie du premier axe.
solution CT R1 (y1 ) = 1/4 13 = 1/12, CT R1 (y2 ) = 1/4 93 = 3/4, CT R1 (y3 ) = 1/12 et
CT R1 (y4 ) = 1/12.
7. Représenter les 3 variables dans le plan factoriel constitué des deux premiers axes.
z
y
x
8. Déterminer la qualité de la représentation de toutes les variables sur le plan factoriel 1-2
constitué des deux premiers axes factoriels.
solution QLT (y1 ) = 1, QLT (y2 ) = 1/4 et QLT (y3 ) = 1/4
Téléchargement