support au formet powerpoint.

publicité
DEA Perception et Traitement de
l’Information
Reconnaissance des formes
Règle de Bayes
S. Canu
http://psichaud.insa-rouen.fr/~scanu/RdF
Buts de la RdF
Une forme x
(vecteur forme
des caractéristiques)
D : Algorithme
de
Reconnaissance
des Formes
x  Rd
y  1,2,..., L
C’est
la forme
« y=D(x) »
espace des caractéristiques
ensemble des décisions
RdF D : R d  1,..., l ,..., L
x  D( x)
Nous voulons un algorithme de RdF performant
x  R d , D(x)  " la vraie classe"
Cout d' une règle de décision D
min J ( D)
DD
J ( D)  E C S , D( X )     C sk , D( x)  f X  x, k  dx  PS  sk 
K
k 1
Théorème de Bayes (et non la règle)
loi à priori
loi à posteriori
vraisembla nce
P  S  sk 
Ex : en français P(e) = 0,12
Ex : après avoir observé x
P S  s k x 
quelle est P(e|x) ?
f X ( x, k ) (analogue à P x S  sk 
loi des " observatio ns" f X ( x)   f X ( x, k )PS  sk 
loi jointe
P  S  sk , x 
k
PS  sk , x   PS  sk x  f X ( x) On choisi une observation, et on décide
PS  sk , x   f X ( x, k ) PS  sk  On choisi la source, et on émet
f X ( x, k ) PS  sk  Attention à la confusion
théorème : PS  sk x  
f X ( x)
source - action
Cout d' une règle de décision D
min J ( D)
DD
J ( D)  E C S , D( X )     C sk , D( x)  f X  x, k  dx  PS  sk 
K
k 1
illustration
sans autre information
on décide toujours
qu’un pixel
vient de la zone
(source 1)
10
20
30
source 1
40
50
car P(S1) > P(S2)
60
70
A PRIORI
80
90
source 2
100
10
20
30
40
50
60
70
80
90
que se passe t’il
si l’on connaît
100
un caratéristique : x
l’intensité
illustration
10
Caractéristique : x
l’intensité
on décide
l’action qui « coûte »
le moins cher
20
30
source 1
40
en cout 0-1
c’est la classe max
A POSTERIORI
50
60
70
2000
f(x|s1)
80
90
source 2
f(x|s2)
1500
1000
100
10
20
30
40
50
60
70
80
90
100
Les vraisemblances
Pa1 x   f  x, S1 PS1 
500
0
-50
0
x
50
100
illustration
0.8
Pa2 x   f  x, S2 PS2 
Pa1 x   f  x, S1 PS1 
0.7
f(x|s2)
0.6
0.5
0.4
0.3
f(x|s1)
0.2
0.1
0
-8
-6
-4
-2
0
2
Règle de décision
4
6
8
10
12
notations
S  s1 ,..., sk ,..., sK  espace des sources
Rd
espace des caractéristiques
A  1,2,..., L ensemble des actions (classes  autres)
RdF D : R d  1,..., l ,..., L
x  y  D( x)
Cout
C : S  A  R
sk , al   C sk , al 
loi à priori
loi à posteriori
vraisembla nce
J coût d ’une règle de décision
(erreur de prédiction)
P  sk 
Pal x 
f X ( x, k ) (analogue à P x sk 
loi des " observatio ns" f X ( x)   f X ( x, k )Psk 
loi jointe
Pal , x 
k
Cas particulier des 2 classes et coûts 0-1
S , la source est une variable aléatoire qui peut prendre 2 valeurs
s0  0 et s1  1
lois à priori (Bernouilli) Ps0 , Ps1  ou PS  0 , p  PS  1
lois à posteriori
Ps0 x , Ps1 x  ou PS  0 x , PS  1 x 
P S  0 x   1  P S  1 x 
r ( x )  P S  1 x 
dans ce cas : E S x   0 * PS  0 x   1* PS  1 x   PS  1 x   r ( x)
vraisembla nces
lois des " observatio ns"
f X ( x,0), f X ( x,1) (analogue à P x S 
f X ( x)  f X ( x,0) PS  0   f X ( x,1) PS  1
 f X ( x,0)1  p   f X ( x,1) p
lois jointes
PS , x  composée de P0, x  et de P1, x 
soit CO  x pour lesquels on décide l' action a0 
Perreur   P X  CO et S  1  P X  C0 et S  0
Cas particulier des 2 classes et coûts 0-1
2 sources s0  0 et s1  1, S suit une loi de Bernouilli de probabilité p
pas de rejet, 2 actions a0 (c' est la source s0 ) et a1 (c' est la source s1 )
C( 0 ,0 )  0 ; C( 0 ,1 )  1
0 si k  l
Cout
Csk , al   
C( 1,0 )  1 ; C( 1,1 )  0
 1 sinon (k  l )
Cout d' une règle de décision D
min J ( D)
DD
J ( D)  E C S , D( X )     C sk , D( x)  f X  x, k  dx  PS  sk 
2
k 1
 1  p  C s0 , D( x)  f X  x,0  dx  p  C s1 , D( x)  f X  x,1 dx
 1  p   f X  x,0  dx  p  f X  x,1 dx
D ( x ) 1

 PS  0 x  f X  x  dx 
D ( x ) 1
D ( x ) 0
 PS  1 x  f X  x  dx
D ( x ) 0
 P X  C0 et S  0
 P X  CO et S  1  Perreur 
Minimiser J(D) c’est minimiser la probabilité d’erreur
Théorème fondamental
Définition : règle de décision du maximum « a posteriori »
1
D * ( x)  
0
si PS  1 x   r ( x)  1 / 2
sinon
Théorème : - D* est la règle de Bayes
(celle qui minimise la probabilité d’erreur)
- J*=J(D*)=P(D*(x)=S) est la plus petite erreur possible
(et donc de coût minimal dans le cadre deux classes 0-1)
loi à posteriori
1
0.5
0
on dé cide la classe 0
x*
on dé cide la classe 1
tel que
r(x*)=1/2
x
Définition fondamentale
Coût minimum = maximum à posteriori
= minimum d’erreur
Pour f X ( x, k ) et Psk  donnés
probabilité d' erreur d' une règle de décision (classifie ur) :
J ( D)  P D( X )  S 
le meilleur classifieu r possible : D*
D*  arg min P D( X )  s   arg min J ( D)
DD
DD
Définitions : - D* est appelée règle de Bayes
c’est la règle qui donne la plus petite probabilité d’erreur
- le problème qui consiste à rechercher D*
est le problème de Bayes
- J*=J(D*) est appelée l’erreur de Bayes
Résumé : problème de RdF
S  s1 ,..., sk ,..., sK  espace des sources
Rd
espace des caractéristiques
A  1,2,..., L ensemble des actions (classes  autres)
RdF D : R  1,..., l ,..., L
x  y  D( x)
d
C : S  A  R
sk , al   C sk , al 
Cout
loi à priori
P  sk 
vraisembla nce
f X ( x, k ) (analogue à P x sk 
Cout d' une règle de décision D
min J ( D) (erreur de prédiction)
DD
J ( D)  E C S , D( X )     C sk , D( x)  f X  x, k  dx  PS  sk 
K
k 1
2 classes - cout 0 - 1
cout  probabilité d' erreur d' une règle de décision (classifie ur) :
J ( D)  P D( X )  S 
le meilleur classifieu r possible : D*  règle de Bayes
D*  arg min P D( X )  s   arg min J ( D)
DD
DD
Illustration 1d
pour deux classes
f X(x,0) ~ N(m0,1)
f X(x,1) ~ N(m1,1)
r(x) = P(S=1|x)
P(S=0|x) = 1-r(x)
densité e et loi à posteriori
illustration
classe 0
classe 1
classe 0
classe 1
Démonstration du théorème fondamental
(maximum a posteriori)
PD( X )  S X  x  
 1  PD( X )  S X  x 
 1  PD( X )  1 et S  1 X  x   PD( X )  0 et S  0 X  x 
 1  1D ( X )1 P S  1 X  x   1D ( X )0 PS  0 X  x 
 1  1D ( X )1 r ( x)  1D ( X )0 1  r ( x) 
 1  2r ( x)  1D ( X )1
J  D   J  D *  2r ( x)  11D*( x )1  1D ( x )1   0
1
si D*  1  r ( x)  les deux terme s sont positifs
2
1
si D*  0  r ( x)  les deux terme s sont négatifs
2
Il est difficile de minimiser J(D) (démonstration constructive)
car la fonction coût n’est pas dérivable
Interprétation en terme de moindres carrés
à x fixé


 min E  D( X )  r ( x)  r ( x)  S  X  x 
 min  D( X )  r ( x)   E r ( x)  S  X  x 
min J ( D)  min E  D( X )  S 2 X  x
D
D
2
D
2
2
 2 E  D( X )  r ( x) r ( x)  S  X  x 
 min  D( X )  r ( x) 2  E r ( x)  S 2 X  x
D

D

 min  D( X )  r ( x) 
2
D
 r ( x )  E S X  x   P S  1 X  x 
La minimisation de l’erreur quadratique mène à la règle de Bayès
min J ( D)  min E  D( X )  S X  x 
La minimisation
D
D
de l’erreur absolue aussi !
 r ( x)
Rejet : règle de Chow
Définition :
règle de décision
du maximum
« a posteriori »
1 si PS  1 x   r ( x)   A  1 / 2
D * ( x)  0 si PS  0 x   1  r ( x)   A  1 / 2
 rejet sinon
1
1/2
densité e et loi à posteriori
A
classe 0
classe 1
classe 0
classe 1
Rejet
d’ambiguité
x
classe 0
rejet
classe 1
Rejet de distance (Dubuisson)
rejet de distance
 si P x    D
 sinon :

classe 1
D * ( x)   si PS  1 x   r ( x)   A  1 / 2
 si PS  0 x   1  r ( x)   A  1 / 2 classe 0
 sinon
rejet d' ambiguïté
1
1/2
densité e et loi à posteriori
A
classe 0
classe 1
classe 0
classe 1
règle du MAP
(bayes pour
le coût 0-1)
D
rejet de distance classe 0
D = 0 et
A = .5 :
x
rejet
classe 1
rejet de distance
illustration
0.7
6
f X(x,0) ~ N(m0,1)
2
f X(x,1) ~ N(m1,1)
C1
0.7
4
0.7
Illustration 2d
pour deux classes
0
r(x) = P(S=1|x)
-2
0.7
P(S=0|x) = 1-r(x)
C0
??????
-4
P(x) = f X(x,0) + f X(x,1)
rejet d’ambiguïté
-6
-4
-2
0
2
4
6
8
illustration
Discrimination de Parzen
6
4
2
0
-2
-4
-6
-4
-2
0
2
4
6
8
Un exemple simple
S=0 vous ratez votre DEA, S=1 vous l’avez
X : le nombre d’heures de travail par semaine
x


posons P S  1 X  x 
xc
 on l' a si x  1  x  c

xc 2
règle de Bayes 
x
1
on rate si
  xc

xc 2
min c, X  

J  D *  E min r ( x),1  r ( x)   E 

 c X 
si X  c (école militaire ou vous êtes obligés d' étudier c heures)
1
alors J  D * 
(pouvoir prédictif nul !)
2
si X ~ uniforme 0,4c 
1 4c min c, x 
alors J  D * 
dx  0,3...

4c 0 c  x
Un exemple simple
S=0 vous ratez votre DEA, S=1 vous l’avez
X : le nombre d’heures de travail par semaine
x


posons P S  1 X  x 
xc
 on l' a si x  1  x  c

xc 2
règle de Bayes 
x
1
on rate si
  xc

xc 2
min c, X  

J  D *  E min r ( x),1  r ( x)   E 

 c X 
si X  c (école militaire ou vous êtes obligés d' étudier c heures)
1
alors J  D * 
(pouvoir prédictif nul !)
2
si X ~ uniforme 0,4c 
1 4c min c, x 
alors J  D * 
dx  0,3...

4c 0 c  x
Résumé : problème de RdF
S  s1 ,..., sk ,..., sK  espace des sources
Rd
espace des caractéristiques
A  1,2,..., L ensemble des actions (classes  autres)
RdF D : R  1,..., l ,..., L
x  y  D( x)
d
C : S  A  R
sk , al   C sk , al 
Cout
loi à priori
P  sk 
vraisembla nce
f X ( x, k ) (analogue à P x sk 
Cout d' une règle de décision D
min J ( D) (erreur de prédiction)
DD
J ( D)  E C S , D( X )     C sk , D( x)  f X  x, k  dx  PS  sk 
K
k 1
Psk , f X  x, k 
trouver un algorithme A tel que :
A  xi , yi , i  1, n  " ressemble" à D* la règle de Bayes
RdF : stratégie de Base
1. Estimer f X ( x, k ) et Psk 
2. Retrouver la règle de Bayes
Alternative
minimiser directement la probabilité d’erreur
(estimer une densité est un problème très difficile)
la base d' aprentissa ge  l' échantillon
 ensemble de couples (caractéristiques - étiquettes )
 X 1 , Y1 ,  X 2 , Y2 ,...,  X i , Yi ,...,  X n , Yn 
un classifieu r :
Dn ( x)
une erreur de classifica tion : J n  J  Dn ( x) 
J n  PDn ( X )  S  X 1 , Y1 , X 2 , Y2 ,..., X i , Yi ,..., X n , Yn 
Comment comparer deux algorithmes
Soit D1 et D2 deux algorithmes (kppv et arbres de décision)
Soit J1 = J(D1) l ’erreur de classification de D1 et J2 = J(D2)
Imaginons que nous connaissions J1 et J2
Sur un échantillon D1 est meilleur, sur un autre c’est D2
comment les comparer ?
En moyenne : E(J) (l’espérance sur tous les échantillons possibles)
Définition
un algorithme est dit consistant si *
lim E  J ( Dn )   J
n
la probabilité d’erreur tend vers son minimum
si c’est vrai quelle que soit la distribution des exemples,
l’algorithme est dit universellement consistant
Théorème (Stone 1977)
L’algorithme des kppv est un algorithme universellement consistant
k n 

k (n) n
  et
 0
n
pour un vecteur caractéristique x
soient  X 1,X 2 ,...,X k  les k caractéristiques les plus proches de x
soient Y1,Y2 ,...,Yk  les étiquettes correspond antes
Dn ( x)  vote majoritaire des k Y
Attention : un bon algorithme peut donner un mauvais classifieur
(on peu aussi gagner au loto)
A savoir
Variable aléatoire
• cas discret (un exemple)
• cas continu (un exemple)
Probabilité, probabilité conditionnelle
fonction de répartition et densité
loi usuelles : bernouilli, binomiale, poisson, normale
Espérance,
•cas discret (un exemple)
•cas continu (un exemple)
Variance
Quiz de 5 minutes maintenant
Conclusion
Un problème de reconnaissance des formes se caractérise
par une loi à priori, une vraisemblance (souvent inconnues),
une fonction coût et un échantillon (souvent connus).
La meilleure solution possible (souvent inconnue) la règle de Bayes
c’est le MAP qui minimise la probabilité d’erreur
Il faut en plus faire du rejet
Reste à savoir comment approcher
la règle de Bayes à partir de l’échantillon
deux stratégies sont possibles :
1. Approcher les lois inconnues puis appliquer le principe du MAP
(la « règle de bayes » sur une approximation des lois)
2. Minimiser directement une estimation de la probabilité d’erreur
Téléchargement