Discrimination linéaire

publicité
DEA Perception et Traitement de
l’Information
Reconnaissance des formes
discrimination linéaire
S. Canu
http://psichaud.insa-rouen.fr/~scanu/RdF
Buts de la RdF
Une forme x
(vecteur forme
des caractéristiques)
D : Algorithme
de
Reconnaissance
des Formes
x  Rd
y  1,2,..., L
C’est
la forme
« y=D(x) »
espace des caractéristiques
ensemble des décisions
RdF D : R d  1,..., l ,..., L
x  D( x)
Nous voulons un algorithme de RdF performant
x  R d , D(x)  " la vraie classe"
Cout d' une règle de décision D
min J ( D)
DD
J ( D)  E C S , D( X )     C sk , D( x)  f X  x, k  dx  PS  sk 
K
k 1
RdF et apprentissage
Les problèmes
P X , Y   P
les couts :
J ( D) et C,
J ( D)  E C S , D( X ) 
1
Ensemble d’apprentissage (échantillon)
Sn   xi , yi  i  1, n
2
Une forme x
(vecteur forme
des caractéristiques)
A : Algorithme
d’apprentissage
D : Algorithme
de
Reconnaissance
des Formes
3
A priori
sur la
nature de la
solution
C’est
la forme
« y=D(x) »
RdF et apprentissage
Les problèmes
P X , Y   P
les couts :
J ( D) et C,
J ( D)  E C S , D( X ) 
1
Ensemble d’apprentissage (échantillon)
Sn   xi , yi  i  1, n
2
A : Algorithme
d’apprentissage
3
A priori
sur la
nature de la
solution
D(x) =signe(w’x+b)
Une forme x
(vecteur forme
des caractéristiques)
D : Algorithme
de
Reconnaissance
des Formes
C’est
la forme
« y=D(x) »
Discrimination linéaire
+
+
+
+
+
+
+
+
+
+
+
+
+
Discrimination Linéaire
X v.a. à valeurs dans R d
(d caractéristiques)
d
frontière de décision linéaire :  w j x j  b  0
j 1
règle de décision linéaire
d
wj x j  b  0
(ronds rouges)
 
j 1
+
d
+
+
 wj x j  b  0
+
+
(croix verte)
+
 j 1
+
+
+
+
x
w
 1
 1
 ... 
 ... 
 
 
x   x j  , w   w j  , frontière de décision : w' x  b  0
 ... 
 ... 
 
 
 xd 
 wd 
Codage {-1,1}, fonction de décision de type « heaviside »
+
+
+
Codage et géomètrie
 d

règle de décision linéaire :    w j x j  b 
 j 1

si y  0
 ( y )  1
où  est la " fonction signe " 
 ( y )  1 si y  0
w’x : produit scalaire
Géométrie : illustration dans R2
 x1 
  w1 
w  , x 
 w2 
 x2 
D( x)  signw' x  b
  w' x  b  0
b

w2
w' x  b  0
w' x  b  0

w
x
°
b
d
w
w' x  b
dist  x,   
w
b

w1
si x et y    w' x  b  0 et w' y  b  0
w' ( x  y )  0  w est orthogonal à la frontière de décision 
Quand le discriminateur linéaire
est il optimal ?
• Quand on le sait à priori…
• quand les 2 classes sont gaussiènnes
(même matrice de variance covariance, couts 0-1)
• quand on a peu d’exemples par rapport à d (rapport n/d)
...et que l’on n’a pas de modèle
on peut l’utiliser pour « représenter » les données (cf ACP)
Avantages :
il est simple
on connaît des bornes de l’erreur
MAP : cas gaussien
règle de décision du MAP :
 S1 si PS1 x   PS 2 x 
D( x)  
S 2 si PS 2 x   PS1 x 
D( x)   PS1 x   PS 2 x 
PS1 x 
PS1 x   PS 2 x   0 
1
P S 2 x 
f X  x,1PS1 

1
f X ( x , 2) P  S 2 
 PS 2  
f X  x,1

  

f X ( x , 2)
 PS1  
règle de décision du MV :
Cas gaussien 1d
f X  x,1 

1
2
2
e
 x  1 2
2
2
,
f X  x, 2  
 x  1   x   2 
2
2

1
2
2
e
 x   2 2
2 2

f X  x,1
2
2
2

2

e
f X  x, 2 
2
2
2
2
 f X  x,1 

x  1   x   2 
2 x1   2   1   2
ln



2
2
2
2
2 2
 f X  x, 2  
Règle de décision

12   2 2
P( S 2 )
2
  ln
: x vient de la source 1
 x1   2  
2
P ( S1 )


2
2



P( S 2 )
2
2
 x      1
  ln
: x vient de la source 2
1
2

2
P ( S1 )

Exemple : communication binaire synchrone
la source 1 émet des 0 et la source 2 des 1,
le canal est bruité par un bruit blanc, on observe X  S   ,  ~ N 0,  2


densité e et loi à posteriori
Erreur de décision

PS1   p1  2 / 3,
p2  1  p1
P x   S  s1 C12  P x   S  s2 C21
tables de la loi de Gauss
Cas gaussien multidimensionnel
f X  x, 2  
2 
d /2

1/ 2
1

1/ 2
e
1
 x  1 ' 1  x  1 
2
1
 x   2 ' 1  x   2  Discrimination de deux classes gausiè nnes
2
3

2
0.
2 
d /2
e

0
f X  x,1 
1
-0. -0.2
4
-0.
6
-0.
8
0.8
0.6
-3
0.
2
0.2
-2
-0.2
6
-0.
0.
4
-1
-0
.4
.2
-0
-0.
4
1
0.2
0
2
0
0.4
Le Discriminateur
de Bayes
est linéaire...
0.6
0.
6
0.4
1
-0.6
0.
4
0.
2
2
Cas Gaussien (même variance)
f X  x,1
e
f X  x, 2 

1
1
 x  1 ' 1  x  1   x   2 ' 1  x   2 
2
2
 f X  x,1 
2 ln
  x'  1 x  2  2 '  1 x   2 '  1 2 
 f X  x, 2  
- x'  1 x  2 1 '  1 x  1 '  11
 21   2 '  1 x  1   2 '  1 1   2 
 PS 2  
f X  x,1 PS 2 
1
1

 21   2 '  x  1   2 '  1   2   ln

f X  x,2  PS1 
 PS1  
 PS 2  
1
1
 21   2 '  x  1   2 '  1   2   ln
0
 PS1  
 w' x  b  0 avec w  1   2 '  1 et b  ...
Mise en œuvre pratique
3
2
1
2.5
0
2
1.5
-1
1
-2
0.5
0
-3
-2
-1
0
1
2
3
4
-0.5
-1
-1.5
-2
-2
-1
0
1
2
3
4
Estimation... et rêve
3
2
1
0
-1
-2
-3
-2
-1
0
1
2
3
4
Discrimination Linéaire
wx+ b=0
+
+
+
+
+
+
+
+
+
+
+
+
+
Discrimination Linéaire
wx+ b=0
+
+
+
+
+
+
+
+
+
+
+
+
+
Discrimination Linéaire
wx+ b=0
+
+
+
+
+
+
+
+
+
+
+
+
+
Discrimination Linéaire
wx+ b=0
+
+
+
+
+
+
+
+
+
+
+
+
+
Discrimination Linéaire
Marge
wx+ b=0
Marge
+
+
+
+
+
+
+
+
+
+
+
+
+
Marge d’un classifieur
Définition
• frontière
x  R d   0d  R d  ,0     , D( x  d )  D( x  d )
• marge
soit f la frontière d' une règle de décision D
m, la marge de D pour l' échantillon  xi , yi i  1, n est définie par :
m  min min xi  x
i 1, n x f
• point influent : « proche » de la frontière,
• point influent pour une règle D :
si l’étiquette change, la frontière change « significativement »
(un des points
• point non influent
Téléchargement