Telechargé par attou alaa

ACP

publicité
Plan du cours
1. Rappels de statistique descriptive
2. Analyse des données multivariées
3. Rappel des bases de la statistique paramétrique
4. Régression linéaire multiple
5. Tests d’adéquation
1
p✓
2. Analyse des données
Multivariées
But: réduire la dimension (pour, entre autre, les
visualiser) de données de haute dimension
A. Analyse en Composantes Principales
Jeu de données multivarié
• Nous disposons de 6 mesures pour des billets suisses.
3
jeu de données multivarié
• Nous avons à notre disposition les mesures de 200
billets, 100 authentiques, 100 contrefaits.
• Boxplots
4
jeu de données multivarié
• Corrélations
n
sxy
1X
=
(xi
n i=1
⇢xy
5
x̄)(yi
ȳ)
sxy
sxy
=p
=
sxx syy
sx sy
jeu de données multivarié
• Scatterplots
6
jeu de données multivarié
• Scatterplots
6
jeu de données multivarié
• Scatterplots
6
Jeu de données multivarié
• Moyen plus efficace pour représenter ces données?
• Approche possible: ACP (Analyse en Composantes
Principales, ou PCA en anglais)
Karl PEARSON
7
Analyse en Composantes Principales
• Point de départ
X = (x1 , x2 , . . . , xn ) 2 R
d⇥n
• Définissons l’inertie (ou l’énergie) de ce jeu de données:
!
!
!
!
!
!
1
I(X) =
n
n
X
1
kxj k =
n
j=1
2
n
X
T
xj xj
j=1
• Si I(X) est très petit, tous les vecteurs sont ~ 0. Rien à faire.
x1
kx1 k2
x2
xn
8
Analyse en Composantes Principales
• Point de départ
X = (x1 , x2 , . . . , xn ) 2 R
d⇥n
• Définissons l’inertie (ou l’énergie) de ce jeu de données:
!
!
!
!
!
!
1
I(X) =
n
n
X
1
kxj k =
n
j=1
2
n
X
T
xj xj
j=1
• Si I(X) est très petit, tous les vecteurs sont ~ 0. Rien à faire.
x1
kx1 k2
x2
xn
8
Inertie =
2
Moyenne
+ Variance
• 1er essai: expliquer l’inertie avec la moyenne
1
I(X) = kx̄k +
n
2
n
X
j=1
kxj
x1
x2
xn
9
2
x̄k
Inertie =
2
Moyenne
+ Variance
• 1er essai: expliquer l’inertie avec la moyenne
1
I(X) = kx̄k +
n
2
n
X
j=1
kxj
x1
x2
x̄
xn
9
2
x̄k
Inertie =
2
Moyenne
+ Variance
• 1er essai: expliquer l’inertie avec la moyenne
1
I(X) = kx̄k +
n
2
n
X
j=1
kxj
x1
x2
x̄
xn
9
2
x̄k
Inertie =
2
Moyenne
+ Variance
• 1er essai: expliquer l’inertie avec la moyenne
1
I(X) = kx̄k +
n
2
n
X
j=1
kxj
2
x̄k
Variance totale (généralisation du cas univarié)
x1
x2
x̄
xn
9
Données Centrées
• 1er essai: expliquer l’inertie avec la moyenne
n
X
1
2
2
I(X) = kx̄k +
kx̃j k
n j=1
x
j
=
:
x̃j
x̃1
x̃2
x̃n
10
x̄
Expliquer la Variance
• 2ème étape… peux-t-on expliquer le terme résiduel en
utilisant des outils simples d’analyse descriptive?
x̃1
x̃2
1
I(X) = kx̄k +
n
2
n
X
j=1
2
kx̃j k
x̃n
• Ceci implique de ne pouvoir utiliser, à nouveau, que des
données univariées ou bivariées, i.e., transformer nos
données multivariées en simples chiffres.
11
Expliquer la Variance
• 2ème étape… peux-t-on expliquer le terme résiduel en
utilisant des outils simples d’analyse descriptive?
x̃1
x̃2
1
I(X) = kx̄k +
n
2
n
X
j=1
2
kx̃j k
n
d X
n
X
X
1
1
2
T
2
kx̃j k =
(ei x̃j )
n j=1
n
j=1
i=1
11
x̃n
2 3
0
6 .. 7
6 .7
6 7
607
6 7
index i
617
=
:
7
ei
6 7
60 7
6 7
6 ..
4 .5
0
Expliquer la Variance
• 2ème étape… peux-t-on expliquer le terme résiduel en
utilisant des outils simples d’analyse descriptive?
x̃1
x̃2
1
I(X) = kx̄k +
n
2
n
X
j=1
2
kx̃j k
n
d X
n
X
X
1
1
2
T
2
kx̃j k =
(ei x̃j )
n j=1
n
j=1
i=1
x̃n
2 3
0
6 .. 7
6 .7
6 7
607
6 7
index i
617
=
:
7
ei
6 7
60 7
6 7
6 ..
4 .5
“inertie résiduelle = somme des variances
de
chaque
variable”
11
0
Analyse Composantes Principales
• Peut-on espérer trouver une seule direction, normée, qui
capture l’essentiel de l’inertie résiduelle?
x̃1
x̃2
x̃n
12
Analyse Composantes Principales
• Peut-on espérer trouver une seule direction, normée, qui
capture l’essentiel de l’inertie résiduelle?
x̃1
x̃2
1
n
n
X
1
T
2
(v x̃j ) /
n
j=1
n
X
j=1
2
kx̃j k
12
v
x̃n
Analyse Composantes Principales
• Peut-on espérer trouver une seule direction, normée, qui
capture l’essentiel de l’inertie résiduelle?
x̃1
x̃2
1
n
n
X
1
T
2
(v x̃j ) /
n
j=1
n
X
j=1
2
kx̃j k
12
v
x̃n
Analyse Composantes Principales
• Peut-on espérer trouver une seule direction, normée, qui
capture l’essentiel de l’inertie résiduelle?
x̃1
x̃j
x̃2
T
1
n
n
X
1
T
2
(v x̃j ) /
n
j=1
v x̃j
n
X
j=1
2
kx̃j k
12
v
x̃n
Analyse Composantes Principales
• Peut-on espérer trouver une seule direction, normée, qui
capture l’essentiel de l’inertie résiduelle?
x̃1
x̃j
x̃2
T
1
n
n
X
1
T
2
(v x̃j ) /
n
j=1
v x̃j
n
X
j=1
2
kx̃j k
12
v
0
x̃n
Analyse Composantes Principales
• Peut-on espérer trouver une seule direction, normée, qui
capture l’essentiel de l’inertie résiduelle?
x̃1
x̃j
x̃2
T
1
n
n
X
1
T
2
(v x̃j ) /
n
j=1 chiffres
v x̃j
n
X
2
kx̃j k
j=1 normes
12
v
0
x̃n
Analyse Composantes Principales
• Peut-on espérer trouver une seule direction, normée, qui
capture l’essentiel de l’inertie résiduelle?
x̃1
x̃j
x̃2
T
1
n
v x̃j
n
X
1
T
2
(v x̃j ) /
n
j=1 chiffres
n
X
kvk =1
kx̃j k
x̃n
j=1 normes
1
(ACP) : max
d n
v2R
2
2
n
X
j=1
12
T
(v x̃j )
v
0
2
Analyse Composantes Principales
• Peut-on espérer trouver une seule direction, normée, qui
capture l’essentiel de l’inertie résiduelle?
x̃1
x̃j
x̃2
T
1
n
v x̃j
n
X
1
T
2
(v x̃j ) /
n
j=1 chiffres
n
X
kvk =1
2
kx̃j k
x̃n
j=1 normes
1
(ACP) : max
d n
v2R
2
v
0
n
X
j=1
12
T
(v x̃j )
2
Comment
résoudre ce
problème?
Analyse Composantes Principales
• Intermède Calculatoire
T
2
T
T
T
T
(a b) = (a b)(b a) = a (bb )a
2
=
=
• Ceci est compliqué en apparence, mais s’avère très utile.
13
Analyse Composantes Principales
• Suite de nos calculs…
1
n
n
X
1
(v x̃j ) =
n
j=1
T
2
n
X
v
T
T
(x̃j x̃j )v
j=1
0
1
n
X
T @1
TA
=v
x̃j x̃j v
n j=1
ˆv
=v ⌃
T
ˆ
• Tout s’explique en fonction d’une matrice ⌃
14
Analyse Composantes Principales
dim d
• Regardons
ˆ de plus près.
⌃
dim n
1
ˆ=
⌃
n
dim d
dim n
15
Analyse Composantes Principales
• Regardons
⇥
ˆ de plus près.
⌃
dim d
. . . x̃T1 . . .
⇤
dim n
1
ˆ=
⌃
n
2
3
..
6.7
6x̃1 7
4 5
..
.
dim d
dim n
15
Analyse Composantes Principales
• Regardons
⇥
dim d
⇤
. . . x̃T1 . . .
⇥
⇤
T
. . . x̃2 . . .
ˆ de plus près.
⌃
dim n
1
ˆ=
⌃
n
2
32
3
..
..
6 . 76 . 7
6x̃1 76x̃2 7
4 54 5
..
..
.
.
dim d
dim n
15
Analyse Composantes Principales
• Regardons
⇥
dim d
⇤
. . . x̃T1 . . .
⇥
⇤
T
. . . x̃2 . . .
ˆ de plus près.
⌃
..
.
dim n
+
..
.
1
ˆ=
⌃
n
2
32
3
..
..
6 . 76 . 7 . . .
6x̃1 76x̃2 7
4 54 5
..
..
.
.
+ ...
dim n
2
3
..
6 . 7
6x̃n 7
4 5
dim d
..
.
15
⇥
. . . x̃Tn
...
⇤
Analyse en Composantes Principales
dim d
• Regardons
ˆ de plus près.
⌃
• Cette matrice s’écrit simplement
en fonction des données.
1
ˆ=
⌃
n
X̃
X̃
dim n
dim d
16
T
d⇥d
dim n
Analyse en Composantes Principales
dim d
• Regardons
ˆ de plus près.
⌃
• Cette matrice s’écrit simplement en
fonction des données.
• Elle s’écrit aussi très naturellement
en fonctions des variances/
covariances de toutes les variables.
1
ˆ=
⌃
n
dim d
X̃
dim n
17
T dim n
X̃
Analyse en Composantes Principales
dim d
ˆ de plus près.
⌃
• Cette matrice s’écrit simplement en
fonction des données.
• Elle s’écrit aussi très naturellement
en fonctions des variances/
covariances de toutes les variables.
1
ˆ=
⌃
n
valeurs de la variable i
dim n
(i, i)
dim d
X̃
17
valeurs de la variable i
• Regardons
T dim n
X̃
Analyse en Composantes Principales
dim d
ˆ de plus près.
⌃
• Cette matrice s’écrit simplement en
fonction des données.
• Elle s’écrit aussi très naturellement
en fonctions des variances/
covariances de toutes les variables.
valeurs de la variable i
• Regardons
T dim n
X̃
2
svariable i
1
ˆ=
⌃
n
valeurs de la variable i
dim d
X̃
dim n
(i, i)
17
Analyse en Composantes Principales
dim d
ˆ de plus près.
⌃
• Cette matrice s’écrit simplement en
fonction des données.
• Elle s’écrit aussi très naturellement
en fonctions des variances/
covariances de toutes les variables.
valeurs de la variable i
• Regardons
T dim n
X̃
2
si
1
ˆ=
⌃
n
valeurs de la variable i
dim d
X̃
dim n
(i, i)
17
Analyse en Composantes Principales
dim d
• Regardons
ˆ de plus près.
⌃
• Cette matrice s’écrit simplement en
fonction des données.
• Elle s’écrit aussi très naturellement
en fonctions des variances/
covariances de toutes les variables.
1
ˆ=
⌃
n
dim d
X̃
dim n
17
T dim n
X̃
Analyse en Composantes Principales
dim d
ˆ de plus près.
⌃
• Cette matrice s’écrit simplement en
fonction des données.
• Elle s’écrit aussi très naturellement
en fonctions des variances/
covariances de toutes les variables.
1
ˆ=
⌃
n
dim n
dim d
17
T dim n
X̃
(i, j)
valeurs de la variable i
X̃
valeurs de la variable j
• Regardons
Analyse en Composantes Principales
dim d
ˆ de plus près.
⌃
• Cette matrice s’écrit simplement en
fonction des données.
• Elle s’écrit aussi très naturellement
en fonctions des variances/
covariances de toutes les variables.
1
ˆ=
⌃
n
dim n
dim d
17
T dim n
X̃
(i, j)
valeurs de la variable i
X̃
valeurs de la variable j
• Regardons
sij
Analyse en Composantes Principales
• Le problème de l’ACP se simplifie donc en:
1
max
v,kvk2 =1 n
n
X
T
2
(v x̃j ) =
j=1
ˆv
max
v
⌃
2
T
v,kvk =1
• Comment obtenir cette direction de variance maximale?
ˆ est symétrique, réelle, et
• Algèbre bilinéaire à l’aide. ⌃
donc diagonalisable.
• La solution v du problème est donc le vecteur propre
ˆ de valeur propre maximale. Nous l’appelons
de ⌃
l’axe principal.
18
Analyse en Composantes Principales
• Le problème de l’ACP se simplifie donc en:
1
max
v,kvk2 =1 n
n
X
T
2
(v x̃j ) =
j=1
ˆv
max
v
⌃
2
T
v,kvk =1
• Comment obtenir cette direction de variance maximale?
ˆ est symétrique, réelle, et
• Algèbre bilinéaire à l’aide. ⌃
donc diagonalisable.
• La solution v du problème est donc le vecteur propre
ˆ de valeur propre maximale. Nous l’appelons
de ⌃
l’axe principal.
t
n
e
m
e
u
q
i
n
U
!
e
u
q
i
t
y
l
a
n
a
n
o
i
t
u
l
o
s
.
PAS de
e
n
i
h
c
a
m
e
n
u
r
a
p
e
é
n
n
o
d
,
e
u
q
i
r
solution numé
18
Analyse en Composantes Principales
• Supposons que nous soyons plus ambitieux, et que nous
voulions trouver une 2ème direction utile.
• 2ème = différente de la première
• On retient l’orthogonalité
x̃1
x̃2
comme critère.
x̃n
1
(ACP-2) : max
d n
v2 2R
2
kv2 k =1
T
v2 v=0
n
X
j=1
19
T
(v2 x̃j )
2
Analyse en Composantes Principales
• Supposons que nous soyons plus ambitieux, et que nous
voulions trouver une 2ème direction utile.
• 2ème = différente de la première
• On retient l’orthogonalité
x̃1
x̃2
comme critère.
x̃n
1
(ACP-2) : max
d n
v2 2R
2
kv2 k =1
T
v2 v=0
n
X
j=1
19
T
(v2 x̃j )
2
Analyse en Composantes Principales
• Supposons que nous soyons plus ambitieux, et que nous
voulions trouver une 2ème direction utile.
• 2ème = différente de la première
• On retient l’orthogonalité
x̃1
x̃2
comme critère.
x̃n
1
(ACP-2) : max
d n
v2 2R
2
kv2 k =1
T
v2 v=0
n
X
j=1
19
T
(v2 x̃j )
2
Problème
encore plus
compliqué!
Analyse en Composantes Principales
• Trouver une 2ème composante principale revient à
1
max
d n
v2 2R
2
kv2 k =1
T
v2 v=0
n
X
ˆ 2
(v2 x̃j ) = max v2 ⌃v
T
2
T
d
v2 2R
kv2 k2 =1
T
v2 v=0
j=1
• Cette fois, nous avons besoin d’un théorème plus
puissant, le théorème minimax de Courant.
• Ce théorème nous donne que la meilleur direction v2
est celle donnée par le vecteur propre qui a la 2ème
plus grande valeur propre.
20
Analyse en Composantes Principales
• Et ainsi de suite:
(ACP-k) :
max
d
vk 2R
2
kvk k =1
?
vk 2Vect(v,v2 ,...,vn )
1
n
n
X
T
(vk x̃j )
2
j=1
• résolu en prenant le vecteur propre de k-ème plus grande
valeur propre.
21
Comment utiliser l’ACP
• Visualisation: transformer chaque point en son projeté
sur les k premières valeurs propres.
• En pratique, représenter
2 3
..
.
6 7
2
3
1
T
6 .. 7
p v1 x̃j
6.7
1
6 7
6
7
.
.
dim d 6xj 7 ! 4
5
.
6 7
6.7
1
T
p
.
vk x̃j
6.7
k
4 5
..
.
22
dim k
Comment choisir k
• Si utiliser afin de visualiser les données, on se contente
de prendre k = 2. On peut aussi regarder la décroissance
des valeurs propres pour décider où s’arrêter.
23
(en termes de distance normée sur les 6 caractéristi
Example
factoriel (u1 horizontalement, u2 verticalement) (voi
F IGURE 2.4 – A gauche : 24projection des individus su
(en termes de distance
normée
les 6 caractéristi
s 6 caractéristiques)
entre billets
sursur
le premier
plan
Example
factoriel
(u1 Fig.2.4
horizontalement,
calement)
(voir
à gauche). uDans
cet exemple,(voi
2 verticalement)
F IGURE 2.4
A premier
gauche :plan
projection
des
individus
su
es individus
sur– le
factoriel.
A
droite
:
24
Analyse Composantes Principales
25
Survol du cours
1. Rappels de statistique descriptive
2. Analyse des données multivariées
3. Bases de la statistique paramétrique
4. Régression linéaire multiple
5. Tests d’adéquation
26
p✓
3. Bases de la Statistique
Paramétrique
But: comment décrire des données en utilisant des
familles paramétriques de distributions?
A.
B.
C.
D.
Modèle statistique
Estimation
Intervalles de confiance
Tests paramétriques
Statistique Paramétrique
Statistiques vs. Probabilités
• Statistiques
• j’ai tiré n billes d’un pot. A
partir de cette information, que
puis-je dire des billes contenues
dans le pot?
!
• Probabilités
• je sais tout des billes qui sont à
l’intérieur du pot. Que risque-til de se passer si j’en tire un
nombre n?
29
Questions fondamentales
• Statistiques
• j’ai tiré n billes d’un pot. A partir de cette information,
que puis-je dire des billes contenues dans le pot?
!
• Nous interprétons cette question comme celle de
décrire ou deviner, le mieux possible, la loi de
probabilité qui a généré notre jeu de données.
!
• Quelles outils peut-on utiliser pour décrire des lois
de probabilité sur l’espace de nos données?
30
Modèle Paramétrique
• Un modèle paramétrique est une famille de
mesures de probabilités sur un espace mesurable.
• Cette famille est indexée par un paramètre qui est un
vecteur de dimension finie.
p
(X , F), P✓ = {p✓ , ✓ 2 ⇥ ⇢ R }
• Examples pour nombres réels, vecteurs, éléments
discrets, matrices, arbres.
31
Bernoulli
X = {0, 1}
✓ = p 2 [0, 1]
32
Bernoulli
X = {0, 1}
✓ = p 2 [0, 1]
fréquemment reformulé comme:
32
Binomiale
✓ ◆
n k
f (k; n, p) = Pr(X = k) =
p (1
k
p)
n k
1kn
distribution de probabilité
X =N
✓ = (n, p) 2 N ⇥ [0, 1]
33
Cauchy
X =R
densité
✓ = (x0 , ) 2 R ⇥ R+
34
Cauchy
X =R
densité
✓ = (x0 , ) 2 R ⇥ R+
…
!
e
c
n
a
r
é
p
s
e
’
d
s
Pa
34
Logistique
densité
X =R
✓ = (µ, s) 2 R ⇥ R+
35
Laplace
densité
X =R
✓ = (µ, b) 2 R ⇥ R+
36
Normale
densité
X =R
✓ = (µ,
2
) 2 R ⇥ R+
37
Normale multivariée (hors programme)
X =R
p
fx (x1 , . . . , xp ; µ, ⌃) =
✓ = (µ, ⌃) 2 X ⇥ Sp
exp
1
(x
2
p
T
µ) ⌃
1
(x
(2⇡)k |⌃|
Sp = {matrices symétriques p ⇥ p à valeurs propres strict. positives}
38
µ)
Wishart (hors programme)
X = Sp
✓ = (V, n) 2 Sn ⇥ {n 2 N, n
f (X; V, p) =
1
2np/2
|V|
n/2
n
p 2
39
|X|
(n p 1)/2
e
(1/2) tr(V
p}
1
X)
Téléchargement