Projection, Discrimination et Classification Analyse discriminante de

publicité
Plan
„
„
„
„
Projection, Discrimination et Classification
Analyse Factorielle Discriminante de Fisher (AFD)
Régression linéaire au sens des moindre carrées
Analyse Discriminante Linéaire (ADL)
Lien entre AFD, ADL et RMC
‡
‡
Massih-Réza Amini
„
Régression Logistique
„
Exemple d’application: la tâche de Recherche d’Information
‡
‡
Techniques d’Analyse de Données et Théorie de l’Information
Master M2 IAD – Parcours Recherche
[email protected]
‡
http://www-connex.lip6.fr/~amini
Synthèse sur AFD, ADL, RMC et RL
Avantages et Inconvénients de ADL
Recherche avec un codage binaire,
Vers une meilleure représentation,
L’information de classe avec l’AF améliore encore la représentation
[email protected]
Laboratoire d’Informatique de Paris 6
2
Analyse discriminante de Fisher
Analyse Discriminante de Fisher (2)
‰
Pb de dimensionnalité : beaucoup de méthodes / techniques (en classif.)
sont inappropriées ou inapplicables en grande dimension
⇒
On projette sur un sous-espace
•
•
‰
Critère d’optimisation :
Perte possible d’informations
Trouver la projection optimale à ce sens
x2
x2
w2
[email protected]
‰
Solution vérifie :
‰
Solution
w1
Laboratoire d’Informatique de Paris 6
3
[email protected]
Laboratoire d’Informatique de Paris 6
4
Interprétation géométrique
‰
La solution de la régression
Analyse Discriminante Linéaire
B̂ vérifie X (Y − XB̂ ) = X (Y − Ŷ ) = 0
t
‰
But : Discrimination
‰
ADL dans le cas de populations normales avec une matrice de
covariance commune pour les différentes groupes
‰
Règle de décision dans le cas bi-classe
t
Y
x2
Ŷ
x1
‰
p(c).p(x/c)
La réponse du modèle, Ŷ est la projection orthogonale de Y sur
l’espace des données.
Ŷ = XB̂ = X ( X t X ) X tY
−1
x1
x2
Matrice de projection, vérifie la propriété d’idempotence
[email protected]
Laboratoire d’Informatique de Paris 6
5
Lien entre AF, ADL et RMC
Estimation des paramètres du modèle linéaire
‰
Dans le cas normal les paramètres du modèle qui maximise ce critère
sont
x2
y
x2
x2
x t.β +
2 β =
O 0
β2
=
+γ O
Critère d’optimisation : logarithme de la vraisemblance complète des
données (ou la vraisemblance classifiante)
β2
‰
t
On suppose que chaque exemple xi appartient à une et une seule
classe.
x.
‰
6
Laboratoire d’Informatique de Paris 6
[email protected]
0
β2
β1
β2
x1
Analyse Factorielle Discriminante
Projection
[email protected]
Laboratoire d’Informatique de Paris 6
7
[email protected]
x1
Analyse Linéaire Discriminante
Discrimination
Laboratoire d’Informatique de Paris 6
x1
Régression Linéaire au Moindre Carrées
Classification
8
AF, LDA et LSR sur un exemple jouet
Lien entre AF, ADL et RMC
„
AFD ∝ RMC
™ Si n1 et n2 sont les cardinaux des 2 classes et que les désirées
sont codées par (-1)kn /nk pour, k∈{1,2}
™ Les paramètres β qui minimise EMC satisfont l’équation
AF, ADL et RMC
RMC
n1n2 ⎤
⎡
−1
⎢ SW + n S B ⎥.β = n(m2 − m1 ) ⇒ β ∝ SW (m2 − m1 )
⎣
⎦
„
μ1
ADL ∝ RMC
™ On remplace le problème d’inégalités dans le cas ADL
β
μ2
ADL
AF
™
RMC
Par un problème d’égalités dans le cas RMC
[email protected]
Laboratoire d’Informatique de Paris 6
ADL
9
[email protected]
Régression Logistique
„
„
10
Régression Logistique (2)
On modélise le logarithme du rapport des densités conditionnelles de
classes par des fonctions linéaires. Pour le cas bi-classes :
‰
Critère d’optimisation équivalente (cas bi-classe)
‰
Les dérivées partielles d’ordre 1 et 2 de L′c en fonction de Β sont :
‰
Solution par approximation numérique et pas de solution exacte
Propriétés
™ Les probabilités a posteriori ont une forme simple (logistique)
™
„
Laboratoire d’Informatique de Paris 6
Une grande variété de familles de distributions vérifient
l’hypothèse de départ.
Critère d’optimisation : vraisemblance classifiante
[email protected]
Laboratoire d’Informatique de Paris 6
11
[email protected]
Laboratoire d’Informatique de Paris 6
12
RMC et RL : Deux régresseurs linéaires différentes
ADL, RMC et RL sur l’exemple jouet
ADL
ADL, RMC et RL
RMC
y
y
RMC
x2
x2
RL
t
x.
t
x.
=
+γ O
β2
β+
0
=
β0
0
x1
x1
Régression Linéaire au Moindre Carrées
Régression Logistique
ADL
[email protected]
Laboratoire d’Informatique de Paris 6
13
[email protected]
‰
‰
Les densités gaussiennes avec une même matrice de covariance, vérifient l’hypothèse
des modèles logistiques.
‰
‰
‰
14
Analyse Discriminante Multiple
RL ou ADL ?
‰
Laboratoire d’Informatique de Paris 6
d à c-1 dimension avec c le nombre de classes
Généralisation de Fisher
w devient une matrice W [ d x (c-1) ]
Différent de plusieurs AFD : optimisation globale
Les probabilités a posteriori de classes dans les deux cas (RL et ADL) ont la même
forme logistique, mais les coefficients pour ces deux modèles sont estimés de façon
différents.
„
La régression logistique ne fait pas d’hypothèse sur la densité marginale des points X et trouve
les coefficients de p(C / X) en maximisant la forme équivalent de la vraisemblance classifiante,
L′c,
„
Avec l’ADL, les paramètres du modèle sont estimées en maximisant la forme complète de la
vraisemblance classifiante. Ici, la densité marginale p(X) joue un rôle dans l’estimation de ces
paramètres.
[email protected]
Laboratoire d’Informatique de Paris 6
15
[email protected]
Laboratoire d’Informatique de Paris 6
16
Analyse Discriminante Multiple (3)
Analyse Discriminante Multiple (2)
‰
p à c-1 dimension avec c le nombre de classes
Généralisation de Fisher
w devient une matrice W [p x (c-1)]
Pour une population centrée
‰
La matrice de dispersion inter-classe
‰
‰
‰
variance des moyennes
‰
La matrice de dispersion intra-classe
moyenne des variances
‰ Critère : Chercher W qui rend stationnaire
sous la contrainte
17
Laboratoire d’Informatique de Paris 6
[email protected]
[email protected]
+
: une
description de q
histoire
di
xi
Documents triés dans
l’ordre décroissant de
leur score
traiter
caractère
découvrir
.
.
.
xl
.
.
.
matching
mesure
lecteur
i.e.
∀i,
di
[email protected]
Classe C
Collection de documents
+
18 documents codés sur un dictionnaire de 32 termes. Les documents sont
classés suivant trois catégories : Business Recession (classe A),
Tectonics (classe B) et Mental disorder (classe C).
Classe B
Dictionnaire
Ce livre traite dans
une large mesure
des Hobbits et le
lecteur découvrira
dans ses pages
une bonne part de
leur caractères.
18
Classe A
‰
Dictionnaire
Laboratoire d’Informatique de Paris 6
Exemple Jouet
Exemple d’application: Recherche de l’Information
q
est finie,
.
: une
description de di
Laboratoire d’Informatique de Paris 6
19
[email protected]
Laboratoire d’Informatique de Paris 6
20
Recherche d’Information avec un codage binaire
Tâche de recherche
‰
But : Rechercher les documents les plus pertinents par rapport à une
requête q et les triés dans l’ordre décroissant de leur pertinence.
‰
La requête q = {business, depression}
[email protected]
21
Laboratoire d’Informatique de Paris 6
[email protected]
Codage insuffisant
3
9 10
3 10 10
1 10
3 10 10
3
3 10 10 10
Laboratoire d’Informatique de Paris 6
22
Codage Insuffisant (2)
Codage binaire est insuffisant pour capturer une information de
contenue
Classe A
‰
3
requête q
1
‰
But : Rechercher les documents les plus pertinents par rapport à une
requête q et les triés dans l’ordre décroissant de leur pertinence.
‰
La requête q = {business, depression}
Classe B
Polysémie
Classe C
Synonymie
[email protected]
Laboratoire d’Informatique de Paris 6
23
[email protected]
Laboratoire d’Informatique de Paris 6
24
Décomposition de la matrice des données en valeurs et
vecteurs singuliers
Représentation plus riche: Latent Semantic Indexing
‰
Le LSI est la décomposition en valeurs singulières d’une matrice
terme-document X = U.Σ.V t
X
t1
t1
d1
c1
d2
c2
t3
t3
d3
t4
t4
Documents
V
c1
c2
polysémies
Termes
"Concepts"
X≈
d1
d2
Vecteur singulier V
des termes
d3
Vecteur singulier U
des documents
Documents
Laboratoire d’Informatique de Paris 6
[email protected]
t
synonymies
t2
t2
Termes
Σ
U
Matrice Σ des
valeurs singulières
25
Représentation des termes sur la base des 2 premiers
vecteurs singuliers droites
[email protected]
26
Laboratoire d’Informatique de Paris 6
Représentation des documents sur la base des 2
premiers vecteurs singuliers gauches
A2 : buisness, economy, market
A6 : buisness, market, price
buisness
A1 : buisness, depression, tax, unemployment
A7 : benefit, compensation, unemployment
economy
valley
bassin
C1 : counseling, illness, mental
C4 : disturbance, drug, illness
C6 : counseling, drug, psychotherapy
unemployment
treatment
volcano
recovery
illness
depression
B2 : depression, fault
B3 : bassin, drainage, valley
B5 : bassin, drainage, volcano
[email protected]
Laboratoire d’Informatique de Paris 6
27
[email protected]
Laboratoire d’Informatique de Paris 6
28
Représentation des documents sur la base des 2
premiers vecteurs propres de Fisher
Liste des documents retournés
SW est non-singulière, on cherche les (c-1=2)
valeurs et vecteurs propres de
[email protected]
Laboratoire d’Informatique de Paris 6
29
[email protected]
Laboratoire d’Informatique de Paris 6
30
Téléchargement