ACP : Analyse en Composantes Principales - Variables Quantitatives

Telechargé par f_azizi
Variables quantitatives : analyse en composantes principales
Jean-Marc Lasgouttes
http://ana-donnees.lasgouttes.net/
Pr´eambule : 3 approches des donn´ees
ecrire les donn´ees de 3 mani`eres compl´ementaires
statistique : chaque colonne repr´esente une variable
mesur´ee sur diff´erent individus,
matricielle : le tableau complet de donn´ees est une
matrice de nombres r´eels,
g´eom´etrique : chaque ligne du tableau repr´esente les
coordonn´ees d’un point dans un espace dont la dimen-
sion est le nombre de variables.
Combiner
ces trois approches pour d´efinir l’ACP en
termes de
vision statistique : moyenne, variance, corr´elation ;
vision matricielle : valeurs propres, vecteurs propres ;
vision g´eom´etrique : distances, angles, projection.
Cons´equences sur le cours
les trois premi`eres parties sont des pr´eliminaires qui
durent la moiti´e du cours !
il faut faire attention pour comprendre le rˆole des
diff´erentes approches
Partie I. Donn´ees : vision
statistique
Les donn´ees quantitatives
efinition
On appelle
«
variable
»
un vecteur
x
de taille
n
. Chaque coordonn´ee
xi
correspond `a un individu. On
s’ineresse ici `a des valeurs num´eriques.
Poids
Chaque individu peut avoir un poids
pi
, tel que
p1+··· +pn= 1
, notamment quand les individus n’ont
pas la mˆeme importance (´echantillons redress´es, donn´ees
regroup´ees,...). On a souvent p= 1/n.
esum´es
on dispose d’une s´erie d’indicateurs qui ne donne
qu’une vue partielle des donn´ees : effectif, moyenne, m´ediane,
variance, ´ecart type, minimum, maximum, ´etendue, 1
er
quar-
tile (25% inf´erieurs), 4
e
quartile (25% sup´erieurs), ... Ces
indicateurs mesurent principalement la tendance centrale et
la dispersion.
On utilisera principalement la moyenne, la variance et
l’´ecart type.
Moyenne arithm´etique
efinition On note
¯x=
n
X
i=1
pixi=p1x1+p2x2+··· +pnxn,
ou pour des donn´ees non pond´er´es
¯x=1
n
n
X
i=1
xi=1
n[x1+x2+··· +xn].
Propri´et´es
la moyenne arithm´etique est une mesure de
tendance centrale qui d´epend de toutes les observations et
est sensible aux valeurs extrˆemes. Elle est tr`es utilis´ee `a
cause de ses bonnes propri´et´es math´ematiques.
Variance et ´ecart-type
efinition la variance de xest d´efinie par
var(x) = σ2
x=
n
X
i=1
pi(xi¯x)2ou var(x) = 1
n
n
X
i=1
(xi¯x)2
L’´ecart-type σxest la racine carr´ee de la variance.
Propri´et´es La variance satisfait la formule suivante
var(x) =
n
X
i=1
pix2
i(¯x)2
La variance est
«
la moyenne des carr´es moins le carr´e de
la moyenne
»
. L’´ecart-type, qui a la mˆeme unit´e que
x
, est
une mesure de dispersion.
Attention !
les calculatrices utilisent l’estimateur sans biais
de la variance dans lequel le 1
/nest remplac´e par 1
/(n1).
Mesure de liaison entre deux variables
efinitions
la covariance observ´ee entre deux variables
x
et yest
cov(x,y) = σxy =
n
X
i=1
pi(xi¯x)(yi¯y) =
n
X
i=1
pixiyi¯x¯y.
et le coefficient de
r
de Bravais-Pearson ou coefficient de
corr´elation est donn´e par
cor(x,y) = rxy =σxy
σxσy
=cov(x,y)
pvar(x)pvar(y).
1
Propri´et´es
— cov(x,x) = var(x) et cor(x,x)=1
— cov(x,y) = cov(y,x) et donc cor(x,y) = cor(y,x).
Propri´et´es du coefficient de corr´elation
Borne On a toujours (in´egalit´e de Cauchy-Schwarz)
1cor(x,y)1.
Variables li´ees
|
cor
(
x
,
y
)|= 1 si et seulement si
x
et
y
sont lin´eairement li´ees :
axi+byi=c, pour tout 1 in.
En particulier, cor(x,x) = 1.
Variables d´ecorr´el´ees
si
cor
(
x
,
y
) = 0, on dit que les va-
riables sont ecorr´el´ees. Cela ne veut pas dire qu’elles sont
ind´ependantes !
Le coefficient de corr´elation par l’exemple
x1
0.0 0.2 0.4 0.6 0.8 1.0
−0.0052
−0.99
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.4 0.8
0.13
0.0 0.4 0.8
x2
0.023
0.88
x3
−1.0 −0.5 0.0
−0.087
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.4 0.8
−1.0 −0.5 0.0
x4
Interpetation
on a 4 variables num´eriques avec 30 indivi-
dus. Les variables 1 et 2 sont
«
ind´ependantes
»
; les variables
1 et 3 ont une relation lin´eaire ; les variables 2 et 4 ont une
relation non-lin´eaire.
Que signifie une corr´elation lin´eaire ?
Qu’est ce qui est significatif ?
si on a assez de donn´ees,
on peut consid´erer qu’une corr´elation sup´erieure `a 0,5 est
significative, et une corr´elation entre 0,3 et 0,5 est faible.
Une corr´elation ´egale `a 1 indique que les deux variables
sont ´equivalentes.
Qu’est-ce que cela veut dire ?
une corr´elation significa-
tive indique une liaison entre deux variables, mais pas n´e-
cessairement un lien de causalit´e. Exemple :
En 2016, 59,2 % des d´ec`es ont eu lieu dans des
´etablissements de sane (hˆopital ou clinique) et
26% `a domicile. L’hˆopital est-il dangereux pour la
sane ?
Et une ecorr´elation ?
voici un exemple ou
cor
(
x
,
y
) = 0
● ●
−4 −2 0 2 4
12345
x
y
Fausses corr´elations
Quand ?
Elles peuvent se trouver quand on a peu de don-
n´ees
Exemple 1
ˆ
Age de Miss America et nombre de meurtres
par vapeur ou objets brˆulants : r= 0,87 entre 1999 et 2009.
Murdersbyst eam
AgeofMissAmerica
AgeofMissAmerica
correlateswith
Murdersbysteam,hotvapoursandhotobjects
Murdersbysteam AgeofMissAmerica
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
2murders
4murders
6murders
8murders
18.75yrs
20yrs
21.25yrs
22.5yrs
23.75yrs
25yrs
tylervigen.com
Exemple 2
Importations de p´etrole brut de la Norv`ege
vers les ´
Etats-Unis et nombre de conducteurs tu´es par une
collision avec un train : r= 0,95 entre 1999 et 2009.
Railwaytraincollisions
UScrudeoilimportsfromNorway
UScrudeoilimportsfromNorway
correlateswith
Driverskilledincollisionwithrailwaytrain
Railwaytraincollisions UScrudeoilimportsfromNorway
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
40deat hs
60deaths
80deaths
100deaths
0millionbarrels
50millionbarrels
100millionbarrels
150millionbarrels
tylervigen.com
Exemples issus du site Spurious Correlations
http://www.tylervigen.com/spurious-correlations.
Partie II. Donn´ees : vision
matricielle
Pense-bˆete matrices
Matrice
tableau de donn´ees, not´ee par un lettre majuscule
grasse (ex : A).
Vecteur
matrice `a une seule colonne, not´e par une lettre
minuscule grasse (ex : x).
Cas particuliers
matrices z´ero (n×p), identit´e (n×n) et
vecteur unit´e de taille n:
0np =
0··· 0
.
.
....
0 0
,In=
1 0
...
0 1
,1n=
1
.
.
.
1
.
Addition
Possible quand les dimensions sont ´egales ; on
ajoute les coefficients.
A+B=B+A,A+0=A
2 Cours d’analyse de donn´ees — Jean-Marc Lasgouttes — ann´ee 2019-2020.
Produit Contrainte lignes/colonnes
A
(n×p)×B
(p×k)
=C
(n×k)
Nombre de colonnes de la premi`ere matrice ´egal au nombre
de lignes de la seconde
AB 6=BA,(A+B)C=AC +BC
InA=AIp=A A(BC) = (AB)C
On peut aussi calculer α
A
: tous les coefficients de
A
sont
multipli´es par le r´eel α.
Inverse si Aet Bsont carr´ees de taille n, alors
AB =In=BA =InOn note B=A1(inverse de A)
Transposition
´echange des lignes et des colonnes d’une
matrice ; on note A0la transpos´ee de A.
(A0)0=A,(αA)0=αA0,
(A+B)0=A0+B0,(AB)0=B0A0
Une matrice carr´ee telle que
A0
=
A
est dite sym´etrique.
Trace
la trace d’une matrice carr´ee est la somme des termes
de sa diagonale
Tr(αA) = αTr(A),Tr(A+B) = Tr(A) + Tr(B),
Tr(AB) = Tr(BA),
Tr(ABC) = Tr(CAB) = Tr(BCA)6= Tr(CBA)
Tableau de donn´ees
On note x
j
i
la valeur de la variable
xj
pour le i
e
individu.
X
= (
x1
,
. . .
,
xp
) est une matrice rectangulaire `a nlignes et
pcolonnes.
xj=
xj
1
xj
2
.
.
.
xj
n
,X=
x1
1x2
1··· xp
1
x1
2x2
2.
.
.
.
.
.··· xj
i...
x1
nxp
n
.
Un individu est repr´esene par
e0
i= [x1
i, . . . , xj
i, . . . , xp
i]
La matrice des poids
efinition on associe aux individus un poids pitel que
p1+··· +pn= 1
que l’on repr´esente par la matrice diagonale de taille n
Dp=
p10
p2
...
0pn
.
Sym´etrie
La matrice
Dp
est diagonale et donc sym´etrique :
D0
p=Dp.
Cas uniforme
tous les individus ont le mˆeme poids p
i
=
1/n et Dp=1
nIn.
Point moyen et tableau centr´e
Point moyen
c’est le vecteur
g
des moyennes arithm´etiques
de chaque variable :
g0= (¯x1,...,¯xp) =
n
X
i=1
pie0
i.
On peut ´ecrire sous forme matricielle
g=X0Dp1n.
Tableau centr´e
il est obtenu en centrant les variables au-
tour de leur moyenne
yj
i=xj
i¯xj,c’est-`a-dire yj=xj¯xj1n
ou, en notation matricielle,
Y=X1ng0= (In1n10
nDp)X
Matrice de variance-covariance
efinition c’est une matrice carr´ee de dimension p
V=
σ2
1σ12 ··· σ1p
σ21
.
.
....
σp1σ2
p
,
o`u σ
j`
est la covariance des variables
xj
et
x`
et σ
2
j
est la
variance de la variable xj
Sym´etrie
Comme σ
j`
=σ
`j
, la matrice
V
est sym´etrique :
V0=V.
Formule matricielle
V=X0DpXgg0=Y0DpY.
Matrice de corr´elation
efinition
Si l’on note r
j`
=σ
j`
j
σ
`
, c’est la matrice
p×p
R=
1r12 ··· r1p
r21 1
.
.
....
rp11
,
Sym´etrie
Comme r
j`
=r
`j
, la matrice
R
est sym´etrique :
R0=R.
Formule matricielle R=D1
/σVD1
/σ, o`u
D1
/σ=
1
σ10
...
01
σp
Cours d’analyse de donn´ees — Jean-Marc Lasgouttes — ann´ee 2019-2020. 3
Les donn´ees centr´ees r´eduites
efinition c’est le tableau Zcontenant les donn´ees
zj
i=yj
i
σj
=xj
i¯xj
σj
,c’est-`a-dire zj=yj
σj
qui se calcule matriciellement comme Z=YD1
/σ
Pourquoi r´eduites ?
pour que les distances soient ind´ependantes des unit´es
de mesure,
pour ne pas privil´egier les variables dispers´ees.
Covariances
comme
¯zj
=
¯yj
= 0, les covariances des
zj
sont des corr´elations :
cov(zk,z`) =
n
X
i=0
pizk
iz`
i=1
σkσ`
n
X
i=0
piyk
iy`
i= cor(xk,x`).
La matrice de variance-covariance des variables centr´ees-
r´eduites est donc la matrice de corr´elation R.
Partie III. Donn´ees : vision
g´eom´etrique
L’analyse de composantes principales (ACP)
Contexte
chaque individu est consid´er´e comme un point
d’un espace vectoriel Fde dimension p. Ses coordonn´ees
dans Fsont
(x1
i, x2
i, . . . , xp
i).
L’ensemble des individus est un nuage de points dans F
et gest son centre de gravit´e.
Principe
on cherche `a r´eduire le nombre pde variables
tout en pr´eservant au maximum la structure du probl`eme.
Pour cela on projette le nuage de points sur un
sous-espace de dimension inf´erieure.
Distance entre individus
Motivation
afin de pouvoir consid´erer la structure du
nuage des individus, il faut d´efinir une distance, qui induira
une g´eom´etrie.
Distance euclidienne classique
la distance la plus simple
entre deux points de Rpest d´efinie par
d2(u,v) =
p
X
j=1
(ujvj)2=kuvk2
en´eralisation simple
on donne un poids m
j
>0 `a la
variable j
d2(u,v) =
p
X
j=1
mj(ujvj)2
Cela revient `a multiplier la coordonn´ee jpar mj
M´etrique
efinition
soit
M
=
diag
(m
j
), o`u m
1
,
. . .
, m
p
sont des
r´eels strictement positifs. On pose
kuk2
M=
p
X
j=1
mju2
j=u0Mu,
d2
M(u,v) = kuvk2
M.
Espace m´etrique il est d´efini par le produit scalaire
hu,viM=
p
X
j=1
mjujvj=u0Mv.
On notera que kuk2
M=hu,uiM.
Orthogonalit´e
on dit que
u
et
v
sont
M
-orthogonaux si
hu,viM= 0.
Propri´et´es du produit scalaire
Le produit scalaire est commutatif
hu,viM=hv,uiM
Le produit scalaire est lin´eaire
hu,v+wiM=hu,viM+hu,wiM,
hu, λviM=λhu,viMpour tout λR.
Identit´e remarquable
ku+vk2
M=kuk2
M+kvk2
M+ 2hu,viM
Utilisation des m´etriques
Utiliser une m´etrique est donc ´equivalent `a
«
tordre
»
les
donn´ees, par exemple pour les rendre comparables
−2 −1 0 1 2
−2 −1 0 1 2
Données brutes
−2 −1 0 1 2
−2 −1 0 1 2
Données vues par la métrique
Cas particuliers
etrique usuelle
Si m
1
,
. . .
, m
p
= 1, alors
M
=
Ip
et on
note hu,vi=hu,viI.
etrique r´eduite
diviser les variables par σ
j
est ´equivalent
`a prendre mj=1
/σ2
j. On a D1
/σ2=D1
/σD1
/σet donc
hD1
/σu,D1
/σvi=u0D1
/σD1
/σv=u0D1
/σ2v=hu,viD1
/σ2.
Travailler avec la m´etrique
D1
/σ2
, c’est comme utiliser la
m´etrique Isur des variables r´eduites.
La plupart du temps en ACP, on fait l’analyse
avec la m´etrique usuelle sur les donn´ees
centr´ees-r´eduites.
4 Cours d’analyse de donn´ees — Jean-Marc Lasgouttes — ann´ee 2019-2020.
Partie IV. L’analyse en
composantes principales
Inertie
efinition l’inertie en un point vdu nuage de points est
Iv=
n
X
i=1
pikeivk2
M=
n
X
i=1
pi(eiv)0M(eiv).
Inertie totale
La plus petite inertie possible est I
g
, donn´ee
par
Ig=
n
X
i=1
pikeigk2
M=
n
X
i=1
pi(eig)0M(eig)
qui est la seule ineressante puisque Iv=Ig+kvgk2
M.
Autres relations
I
g
mesure la moyenne des carr´es des dis-
tances entre les individus
2Ig=
n
X
i=1
n
X
j=1
pipjkeiejk2
M.
Interpetation
L’inertie totale mesure l’´etalement du
nuage de points
Calcul de l’inertie
Forme matricielle
L’inertie totale est aussi donn´ee par la
trace de la matrice VM (ou MV)
Ig= Tr(VM) = Tr(MV)
etrique usuelle M
=
Ip
correspond au produit scalaire
usuel et
Ig= Tr(V) =
p
X
j=1
σ2
i
etrique r´eduite obtenue quand M=D1
/σ2=D2
1
/σ
Ig= Tr(D1
/σ2V) = Tr(D1
/σVD1
/σ) = Tr(R) = p.
Variables centr´ees r´eduites
On se retrouve encore dans
le cas o`u
Ig= Tr(R) = p.
L’analyse de composantes principales (ver-
sion 2)
Principe
on cherche `a projeter orthogonalement le nuage
de points sur un espace F
k
de dimension k < p, sous la
forme
e
ig=ci1a1+ci2a2+··· +cikak
Les vecteurs
a1
,
. . .
,
ak
d´efinissent l’espace F
k
et les c
i`
sont
les coordonn´ees de e
i.
Crit`ere
on veut que la moyenne des carr´es des distances
entre les points
ei
et leur projet´es
e
i
soit minimale. Comme
on a toujours (th´eor`eme de Pythagore)
keigk2=keie
ik2+ke
igk2,
cela revient `a maximiser l’inertie du nuage projet´e.
On cherche donc
F
k, sous espace de dimension
k
de
F
p, qui maximise l’inertie du nuage projet´e sur
F
k.
Valeurs propres et vecteurs propres : un
exemple
Donn´ees une matrice et trois vecteurs
A=
5 1 1
2 4 2
11 3
v1=
0
1
1
,v2=
1
0
1
,v3=
1
1
0
Vecteurs propres on peut v´erifier que
Av1= 2v1,Av2= 4v2et Av3= 6v3.
On dit que
v1
,
v2
et
v3
sont vecteurs propres de
A
associ´es
aux valeurs propres λ1= 2, λ2= 4 et λ3= 6.
Propri´et´es (valables en g´en´eral)
v1
ou 3
v1
sont aussi vecteurs propres de
A
associ´es
`a λ1;
On a Tr(A) = 5 + 4 + 3 = 12 = λ1+λ2+λ3.
R´esultat principal (admis)
Propri´et´e
Il existe pr´eels λ
1
,
. . .
, λ
p
et pvecteurs
a1,...,ap, tels que
VMak=λkak.
Les λ
k
0 sont les valeurs propres de
VM
et sont
class´ees par ordre d´ecroissant :
λ1λ2λ3≥ ··· ≥ λp0.
Les
ak
sont les vecteurs propres de
VM
et sont
«M
-
orthonormaux »:
hak,akiM= 1,hak,a`iM= 0 si k6=`.
Th´eor`eme principal
La projection sur kvariables est obte-
nue en consid´erant les kpremi`eres valeurs propres λ
1
,
. . .
, λ
k
et les a1,...,akcorrespondants, appel´es axes principaux.
Le calcul ne d´epend pas du nombre de variables retenues.
Id´ee du lien avec l’inertie
on sait que I
g
=
Tr
(
VM
) =
λ
1
+
···
+λ
p
. Si on ne garde que les donn´ees relatives `a
a1
,
. . .
,
ak
, on gardera l’inertie λ
1
+
···
+λ
k
, et c’est le mieux
qu’on puisse faire.
Cours d’analyse de donn´ees — Jean-Marc Lasgouttes — ann´ee 2019-2020. 5
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!