ANALYSE DES DONNEES (Correction Partiel) Master M1 MMD - MA, 19 mars 2018 Calculatrice autorisée, documents autorisés : 2 feuilles recto-verso. Barême approximatif : 10 points pour chacun des deux exercices. Exercice 1 On considère un nuage N, constitué de n individus (xi )1≤i≤n , chaque individu a un poids pi > 0. On a p variables d’où un tableau X de format n × p, on note Y le tableau centré et r le rang de Y. Les résultats de l’ACP de N, l’espace p étant muni de la métrique M = I p et n de la métrique D p , sont notés comme suit : - le α ème vecteur axial factoriel (pour le nuage des individus) est noté uα , - la α ème valeur propre est notée λα , - la α ème composante principale du nuage des individus est notée ψα , - pour tout λα , 0, vα = ψ √α , λα avec α ∈ {1, . . . , p}. On note 1n le vecteur de n dont toutes les composantes sont égales à 1. 1. Décomposition de Y (a) Montrer que p X uα u0α = I p . α=1 p X Indication : on pourra calculer, pour tout 1 ≤ β ≤ p, ( uα u0α )uβ , puis conclure. α=1 solution Puisque la famille (uα )1α≤p est une famille orthonormale de p , on a u0α uβ = 0 si α , β et u0α uβ = 1 si α = β. On en déduit que ( p X uα u0α )uβ α=1 = p X uα u0α uβ , α=1 = uβ . De plus comme la famille (uα )1α≤p est une base, on en conclut que p X uα u0α = I p . α=1 (b) En déduire que r p X λα vα u0α . Y= α=1 solution Puisque Y est de rang r, les r premières valeurs propres sont non nulles, on peut donc définir les vecteurs vα pour tout 1 ≤ α ≤ r. Le calcul donne r p r X X 0 ψα u0α , λα vα uα = α=1 α=1 = r X Yuα u0α , α=1 = p X Yuα u0α , car Yuα = 0 si α > r α=1 = Y. (c) Réciproquement, en remplaçant r par un entier naturel q ≤ r, on considère un tableau T défini par q X √ T= aα wα tα0 , α=1 où — les réels aα forment une suite décroissante : a1 ≥ a2 ≥ · · · ≥ aq > 0. — la famille (tα )1≤α≤q est une famille orthonormale de p . — la famille (wα )1≤α≤q est une famille D p -orthonormale de vect(1n )⊥ . On effectue l’ ACP du tableau T , l’espace p étant muni de la métrique M = I p et n de la métrique D p . i. Calculer T 0 D p 1n . En déduire que le tableau T est centré. solution On commence par montrer que le tableau T est centré, en effet T D p 1n = 0 q X √ aα tα w0α D p 1n = 0, α=1 car la famille (wα )1≤α≤q est une famille orthonormale de vect(1n )⊥ . On en déduit que le produit scalaire de t j , 1 ≤ j ≤ p, avec 1n est nul pour la métrique D p soit n X pi tij = 0 i=1 ce qui correspond à la moyenne de t j . Ainsi toutes les variables sont centrées. ii. Montrer que les réels aα sont les valeurs propres non nulles, que pour tout 1 ≤ α ≤ q, tα est un axe factoriel associé à la valeur propre aα et que la composante √ principale associée à tα est aα wα . solution La matrice de variance est alors V = T 0 D p T, q q X X √ √ = aα tα w0α D p aβ wβ tβ0 α=1 = q X α=1 β=1 aα tα D p tα0 . On a pour 1 ≤ α ≤ q Vtα = aα tα On complète la famille (tα )1≤α≤q en une base orthonormale de p (tα )1≤α≤p , on a pour tout r + 1 ≤ α ≤ p Vtα = 0 On en déduit que les réels aα sont les valeurs propres non nulles, que pour tout 1 ≤ α ≤ q, tα est un axe factoriel associé à la valeur propre aα . Enfin √ ψα = T tα = aα wα . 2. Approximation de Y par une matrice de rang inférieur à r Soit q un entier inférieur à r, on considère le tableau Y ∗ avec les q premiers termes de la somme Y∗ = q X p λα vα u0α (1). α=1 (a) Déterminer le noyau de Y ∗ , ker Y ∗ , puis en déduire le rang de Y ∗ . solution Soit u ∈ ker Y ∗ , alors Y ∗ u = 0, soit q X p λα vα u0α u = 0. α=1 ou encore q X p λα < uα , u > vα = 0. α=1 comme la famille (vα )α est libre, et que les q premières valeurs propres sont non nulles, on en déduit que u ∈ vect(u1 , · · · , uq )⊥ . Réciproquement tout vecteur de vect(u1 , · · · , uq )⊥ est dans ker Y ∗ donc ker Y ∗ = vect(u1 , · · · , uq )⊥ . On en déduit que le rang de Y ∗ est p − (p − q) = q. (b) La matrice Y comporte n × p termes, combien de termes sont ils nécessaires pour construire la matrice Y ∗ à partir de l’équation (1). solution La matrice Y ∗ nécessite q(n + p + 1) termes au lieu des np termes de Y. 3. Qualité de l’approximation (a) L’espace p étant muni de la métrique M = I p et n de la métrique D p , calculer l’inertie totale du nuage associée au tableau Y ∗ notée IT∗ en fonction des valeurs propres (λα )1≤α≤q . solution On a IT∗ = T r((Y ∗ )0 Y ∗ ), q X = T r( λα uα u0α ), α=1 = q X λα T r(u0α uα ), car T r(AB) = T r(BA), α=1 = q X λα . α=1 (b) On définit la qualité de l’approximation par IT∗ τq = . IT Calculer τq en fonction des valeurs propres (λα )1≤α≤p . Que représente τq pour l’ACP du tableau Y ? solution On a Pq λα τq = Pα=1 . r α=1 λα Il s’agit du taux d’inertie expliqué par l’espace généré par les q premiers axes vectoriels. Exercice 2 On considère le tableau de données, noté X, qui est défini par : 1 1 5 1 X = 1 −1 1 3 −3 −1 −1 1 où la i ème ligne désigne l’individu xi et la j ème colonne désigne la variable x j . Chaque individu possède un poids égal à 1/4. On considère les résultats de l’ACP du tableau X lorsque 4 est muni de la métrique identité. 1. Déterminer le tableau centré Y. solution On a −1 0 3 0 Y = −1 −2 −1 2 −2 0 0 2 2. Calculer V et montrer que 1 et 3 sont les seules valeurs propres de V. solution On a 3 0 0 V = 0 2 1 0 1 2 Le polynôme caractéristique donne (3 − λ)2 (1 − λ), donc 1 et 3 sont les seules valeurs propres. 1 3. Montrer que u1 = 0 est un vecteur propre de V que l’on utilisera comme axe facto 0 riel. Déterminer les autres axes factoriels en choisissant des vecteurs dont la seconde coordonnée est positive. 0 0 solution On a Vu1 = 3u1 . Par calcul, on obtient u2 = √12 1 et u3 = √12 1 . 1 −1 4. Calculer les trois composantes principales , notée ψ1 , ψ2 et ψ3 en fonction des variables initiales y1 , y2 et y3 . solution 2 3 2 3 ψ1 = Yu1 = y1 , ψ2 = y √+y2 et ψ3 = y √−y2 . 5. Représenter les quatres individus dans le plan factoriel constitué des deux premiers axes. solution 4 2 3 1 6. Calculer la contribution relative de chaque individu à l’inertie du premier axe. solution CT R1 (y1 ) = 1/4 13 = 1/12, CT R1 (y2 ) = 1/4 93 = 3/4, CT R1 (y3 ) = 1/12 et CT R1 (y4 ) = 1/12. 7. Représenter les 3 variables dans le plan factoriel constitué des deux premiers axes. z y x 8. Déterminer la qualité de la représentation de toutes les variables sur le plan factoriel 1-2 constitué des deux premiers axes factoriels. solution QLT (y1 ) = 1, QLT (y2 ) = 1/4 et QLT (y3 ) = 1/4