Analyse en Composantes Principales Laboratoire d`Analyse

publicité
Analyse en Composantes Principales
Laboratoire d’Analyse – Recherche en Economie Quantitative
One Pager
Décembre 2013
Vol. 8 – Num. 010
Copyright © Laréq 2013
http://www.lareq.com
Analyse en Composantes Principales
Yannick Mavita Mukwanga
« Pour les meilleurs ou les pires, les mathématiques sont devenues l’outil privilégié de
l’analyse économique contemporaine. »
Carl P. Simon & Lawrence Blume
Résumé
Ce papier présente un outil de l’analyse multivariée, l’analyse en composantes principales. Pour
ce faire, il nous a paru impérieux de rappeler certaines notions mathématiques, notamment le
vecteur et la matrice, avant de procéder à l’exposé de la méthode en cause.
Mots – clé : vecteur,
matrice, analyse en composantes principales
Abstract
This paper focuses on the study of principal component analysis. So, first, we recall the
concepts of vectors and matrices, and then proceed to the presentation of the method PCA.
Introduction
Résumer l’information pour une série de données permet à un analyste de passer du complexe au simple
et de fournir une interprétation plus plausible. C’est sous cet angle que l’Analyse en composantes
principales (ACP), s’insérant parmi les méthodes de la statistique multivariée, consiste à transformer des
variables liées entre elles en nouvelles variables décorrélées les unes des autres [composantes
principales ou axes principaux]. Cette approche permet ainsi de réduire le nombre de variables et de
rendre la présentation de l’information plus aisée.
En parallèle, il y a lieu de noter que la méthode ACP est intrinsèquement l’œuvre de Karl Pearson. Elle a
été présentée dès 1901 dans un article portant sur la recherche de la « droite du meilleur ajustement ».
Dans ce cadre, l’auteur s’est, notamment, proposé de décrire et de résumer l’information contenue dans
les variables, et non à chercher l’explication d’une variable par d’autres comme dans la régression.
Toutefois, il sied de noter que le développement et la formalisation de l’ACP sont attribués à l’économiste
et statisticien américain Harold Hotelling, d’où le nom de la transformée de Hotelling.
Etant donné que le but de ce papier est de proposer une présentation plus simplifiée de l’ACP, la
structure suivante a été retenue, la section première s’attèle à l’analyse des éléments de calculs vectoriel
et matriciel, et la section deuxième, à l’exposé de la méthode ACP.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
92
I. Eléments de calculs vectoriel et matriciel
Cette section rappelle quelques concepts basiques et fondamentaux sur les calculs vectoriel et matriciel.
Pour une présentation plus rigoureuse, nous désignons Tombola et Tsasa (2013).
Par définition, un vecteur est un segment de droite orienté, appartenant dans un espace à
dimensions.
Pour deux dimensions, l’espace se confond au plan. Et l’ensemble de tous les vecteurs forme l’espace
vectoriel E1.
Quatre éléments classiques caractérisent généralisent un vecteur, à noter :

le point d’application : l’origine du vecteur ;

la direction : le support du vecteur ;

le sens : généralement indiqué par une flèche lors de la représentation graphique du vecteur ;

le module : la longueur du vecteur. On l’appelle également intensité, norme. Il est noté
pour un vecteur
considéré, et se calcule comme suit.
=
Pour une norme égale à l’unité,
où
= (x1, x2, …, xn)
, le vecteur
est dit unitaire.
Note : tout vecteur peut devenir unitaire en divisant seulement chacune de ses composantes par sa
norme
Quelques opérations dans un espace vectoriel E
) ∈ E2

∀

∀ (,
∈ E
∈ K X E,

∈ E
(loi interne)
(loi externe)
Propriétés ou règles de calcul dans espace vectoriel E

∀
∈ E

∀ ∈ K ,

∀ ∈ K et ∀

∀ ∈ K et ∀ (v, u) ∈ E2

∀ (, )∈ K2 et ∀
.0=0
∈ E
∈ E,
Notion de la distance
Soit deux points A(x1, X2, …, xn) et B(y1, y2, …, yn), la distance entre ces deux points est donnée par :
–
Trois propriétés gouvernent la notion de la distance :
1

d(A, B) = d(B, A), la symétrie;

d(A, A) = , la distance d’un point vers un même point est nulle ;

d(A, B)
d(A, C) + d(B, C), l’inégalité triangulaire.
Voir une définition plus rigoureuse dans Tombola – Tsasa (2013, p. 95).
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
93
Intéressons – nous à présent à l’analyse matricielle. Une matrice est un tableau rectangulaire de
nombres, formé de
lignes et
colonnes . Le format (m, n) indique la dimension de la matrice et
est l’élément de la matrice située à l’intersection de
ligne et de la
colonne.
Ainsi, une matrice à m lignes et n colonnes, à coefficients dans un corps K est toute application de [1, m]
X [1, n] dans K.
De manière générale, on peut noter une telle matrice nommée A comme suit :
A=
Vecteur ligne et vecteur colonne, si m = 1 la matrice A devient un vecteur ligne et si n = 1 la matrice
A devient un vecteur colonne [cette forme du vecteur sera largement utilisée dans la méthode ACP].1
Li =
et Cj =
désignent respectivement le vecteur ligne et le vecteur colonne.
Matrice carrée, si m = n, la matrice A devient une matrice carrée et appelée matrice d’ordre n.
A=
où a11, a22, … , ann sont coefficients diagonaux de A.
Matrice diagonale, on appelle une matrice diagonale une matrice carrée dont tous les éléments non
diagonaux sont nuls. C’est – à – dire ∀
∈
A=
Matrice identité, on appelle une matrice identité d’ordre n une matrice diagonale dont tous les
éléments diagonaux sont égaux à l’unité.
In =
Matrice symétrique, on appelle une matrice symétrique une matrice carrée dont les éléments sont égaux
deux à deux perpendiculairement par rapport à la diagonale principale.
A=
Opérations sur les matrices
Transposition de la matrice, soit une matrice A de dimension
t
notée A de dimension
on appelle transposée de A la matrice
2
Addition matricielle, tout d’abord, on doit retenir qu’on ne peut additionner que deux matrices de même
dimension. Et pour additionner deux matrices A et B, on additionne les éléments de mêmes indices.
∀
Propriété: l’addition matricielle est commutative [A + B = B + A].
1
2
Cette définition du vecteur montre que la notion du vecteur est un cas particulier de la matrice.
La transposition implique de manière plus simple que les lignes de A deviennent les colonnes de A t et les
colonnes des lignes.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
94
Multiplication d’une matrice par un scalaire, pour multiplier une matrice par un scalaire, on multiplie
chaque élément de la matrice par ce scalaire.
Soit A, une matrice de dimension
∈
∀
Multiplication deux matrices, ce produit n’est possible que si le nombre de colonnes de la première
matrice [A (m, n)] est égal au nombre de lignes de la deuxième matrice [B (p, r)].
∀
.
Propriété : le produit matriciel est non commutatif.
Valeurs et vecteurs propres d’une matrice carrée
Valeur propre. Soient A une matrice carrée, In, une matrice identité et  un paramètre réel. On appelle
valeur propre , le zéro du polynôme caractéristique noté :
.
Vecteur propre. On appelle vecteur propre associé à la valeur propre , le vecteur
∈ E tel que :
.
Note : à une valeur propre est liée une famille de vecteurs propres.
II. Exposition de la méthode de l’ACP
Pourquoi ce choix sur l’ACP ?
Historiquement, l’ACP est la première méthode d’analyse des données. Et par ailleurs, à ce jour, ,
l’analyse des données utilise principalement les méthodes d’analyse factorielle. Celles – ci consistent à
réduire les données initiales afin de les représenter graphiquement dans un espace à faibles dimensions
[généralement deux]. Parmi ces méthodes, on peut aussi citer l’analyse factorielle des correspondances
[AFC], la classification automatique, l’analyse discriminante.
Le recours à ces méthodes est venu de la déception lors de l’utilisation de la statistique descriptive
traditionnelle [moyenne, écart – type, etc.] qui livre une description sommaire des données, et se
montrant incapable de fournir les informations telles que les proximités, les combinaisons.
Par ailleurs, notre intérêt sur l’ACP se justifie non seulement du point de vue de l’histoire, mais aussi du
fait que la quasi – totalité de méthodes de l’analyse factorielle fait recours à l’ACP.
Nature et présentation des données
Les données soumises à l’ACP doivent être quantitatives, c’est – à – dire mesurables ou comptables
[comme le poids, l’âge, le nombre de cours, le Produit intérieur brut (PIB), etc.].
L’ACP consiste à réduire un problème à
variables et
individus à des axes principaux [généralement
deux] permettant de grouper les individus ou les variables selon ces axes.
Note : l’indépendance de ces deux axes principaux.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
95
Le problème se présente initialement comme suit :
Variables1
Individus
X1
X2 …
Xj …
Xn
1
X11
X21 …
X1j …
X1n
2
X21
X22 …
X2j…
X2n
…
…
…
…
…
i
Xi1
Xi2…
Xij …
Xin
…
…
…
…
…
p
Xp1
Xp2
Xpj …
Xpn
Construction de la matrice centrée
Soit, un ensemble de
ou centrée réduite1 M’
variables aléatoires (X1, X2, … , Xn) connues à partir d’un échantillon de P
réalisations conjointes de ces variables. Cette situation peut être décrite dans une matrice M à
lignes et
colonnes.
M=
Soit, le vecteur (
, …,
) le centre de gravité2 du nuage des points et centrons la matrice M sur le
centre de gravité.
=
Cette matrice M peut être réduite, selon le modèle, en divisant chaque élément de la matrice
par
l’écart – type respectif. D’où la matrice centrée réduite M’ :
M’ =
Dans la pratique, la matrice M’ est la plus utilisée.
Note : une variable à forte variance va tirer tout l’effet de l’ACP vers elle, si on ne réduit pas le nuage. Et
une variable qui n’est un bruit [variable non significative] va se retrouver avec une variance apparente
égale à une variable significative.
Construction de la matrice d’inertie W
La méthode de l’ACP, dans le même style que l’estimation de la droite d’ajustement par les moindres
carrés ordinaires [MCO], consiste à trouver un axe
[issu de la combinaison linéaire de toutes les
variables Xn] tel que le nuage des points autour de cet axe soit minimal. Ce qu’on appelle en physique
minimiser l’inertie du nuage autour de . Cet axe dirigé par un vecteur unitaire qui n’est rien d’autre que
le vecteur propre unitaire de la matrice d’inertie.
1
2
Le choix de réduire ou pas la matrice M dépend du choix du modèle considéré.
En physique, le centre de gravité [notion introduite par Isaac Newton] est le point d’application, l’origine, de la
résultante de toutes les forces de pesanteur.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
96
Pour arriver à trouver cet axe, cherchons d’abord la matrice d’inertie :
W = tM’.
. M’
ou
W=
t
,
où :

t

t

M’ est la transposée de la matrice M’
est la transposée de la matrice
est la matrice diagonale représentant le poids ou la chance de réalisation de chaque
élément
de la matrice M. Si tous les éléments ont la même importance dans le
calcul des caractéristiques de l’échantillon, ce poids sera donné par
Alors la matrice
d’ordre
.
est donnée par :
.
Note : la matrice W est symétrique et les éléments diagonaux sont égaux à l’unité.
Valeurs et vecteurs propres de la matrice d’inertie W
La somme de toutes les valeurs propres de la matrice W donne l’ordre de cette matrice, ce qui est en
effet, égal au nombre de variables considéré dans l’échantillon.
Cela renvoie à la notion de la part d’inertie déterminée pour chaque valeur propre. Cette part pour la
valeur propre
considérée est égale à :
Seules les deux premières valeurs propres ayant les plus grandes parts d’inertie permettront de trouver
les vecteurs propres respectifs.
Analyse du nuage des individus
L’analyse des points – individus (ou même des points – variables) est l’analyse factorielle en question.
L’objectif est de chercher les axes principaux, définir les composantes principales et enfin déterminer le
plan principal permettant d’interpréter l’analyse.
Axes principaux et composantes principales
Ces axes factoriels sont dirigés par les vecteurs propres issus de la matrice d’inertie. Mais ce sont
seulement les vecteurs propres unitaires associés aux valeurs propres ayant les plus grandes parts
d’inertie qui dirigent les deux axes principaux.
Ensuite, on projette les points sur ces axes principaux, définissant ainsi deux nouvelles variables pour
chaque individu. Ces variables sont appelées les composantes principales.
On les note comme suit :
e
où :
e
est la composante principale et
e
= M’ .
e
ou
e =
.
e
le vecteur propre unitaire.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
97
Plan principal
Ce plan est formé de deux axes principaux. C’set sur ce plan que les observations des composantes
principales seront projetées pour former le nuage des individus.
Figure 1 : nuage des individus
Interprétation
L’interprétation de ce nuage renvoie à la notion de la distance. Plus la distance entre les individus est
réduite, plus les individus présentent les mêmes caractères [appartiennent au même groupe]. La figure
montre deux groupes, un individu isolé et un autre qui se trouve très proche du centre de gravité.
Note : le centre de gravité est en O et l’inertie totale est mesurée par la variance qui est égale au
nombre de variables
.
Analyse du nuage des variables
Dans cette analyse, on cherche à trouver les liens entre les variables. De même que pour le nuage des
individus, on cherche les axes principaux. Il est important de noter que les projections des points –
variables sur les axes principaux sont égaux aux coefficients de corrélation entre ces variables et les
composantes principales. On peut écrire la situation de la manière suivante :
e
= cor (
e
, Xe) =
.
e
L’interprétation se fait toujours en termes de proximité, mais il y a lieu de rappeler que le nuage des
variables est régi autour d’une sphère de centre 0 et de rayon 1.
Note : les liens entre les variables sont exprimés par le coefficient de corrélation.
Par ailleurs, notons que dans le domaine de l’analyse d’image, l’ACP est connue sous le nom de
transformée Karhunen – Loève1. Elle est utilisée pour analyser les séries dynamiques d’mages. C’est le
cas des scintigraphies en médecine nucléaire permettant d’observer le fonctionnement d’organes comme
le cœur. Ainsi, on assiste à une amélioration de la qualité visuelle dans le domaine médical.
1
Des noms du statisticien finlandais Kari Karhunen (1915 – 1992) et du mathématicien et statisticien français
et américain Michel Loève (1907 – 1979) qui ont développé cette méthode.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
98
Figure 2 : nuage des variables
Dans le domaine de la topographie, l’ACP permet l’analyse de l’évolution du relief au cours du temps.
Somme toute, le présent papier a présenté une vision plus ou moins simplifiée la méthode d’Analyse en
composantes principales [ACP]. Par ailleurs, dans des papiers ultérieurs, il sera question d’aborder
d’autres méthodes de l’analyse factorielle, et de procéder en même temps à des illustrations sur des
logiciels appropriés..
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
99
Références bibliographiques
•
DELGADO Jean – pierre, 2001, Mathématiques appliquées, ESKA, 2è Edition, Paris, 165p.
•
DENIZET Frédéric, 2008, Algèbre et géométrie, Edition Nathan, Paris, 501p.
•
ESCH Louis, 1992, Mathématiques pour économistes et gestionnaires, Edition De Boeck,
Bruxelles, 697p.
•
KLOTZ Gérard, 2000, Mathématiques pour les sciences économiques et sociales, Edition Presses
universitaires de France, Paris, 344p.
•
MALU Raїssa, 2010, L’indispensable des Mathématiques, Collection savoirs et découvertes,
Louvain-la-Neuve, 116p.
•
MICHEL, Philippe, 1989, Cours de mathématiques pour économistes, Economica, 2è Edition,
Paris, 748p.
•
MONIER Jean – Marie, 1993, Géométrie, Editions Dunod, Paris, 347p.
•
PEARSON, Karl, 1991, « On Lines and Planes of Closest Fit to Systems of points in Space”,
Philosophical Magazine, 2 (6): 559 – 572.
•
TOMBOLA Cédrick et Jean – Paul TSASA, 2013, « Analyse de la Structure d’Espaces Vectoriels »,
One Pager Laréq (février), 5 (15): 93 – 99
•
ZOUHHAD Richid et Cie, 2002, Mathématiques appliquées, Dunod, 5è ed, Paris, 335p.
Yannick Mavita Mukwanga
Laboratoire d’Analyse – Recherche en Economie Quantitative
100
Téléchargement