DEA Perception et Traitement de l’Information Reconnaissance des formes Règle de Bayes S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF Buts de la RdF Une forme x (vecteur forme des caractéristiques) D : Algorithme de Reconnaissance des Formes x Rd y 1,2,..., L C’est la forme « y=D(x) » espace des caractéristiques ensemble des décisions RdF D : R d 1,..., l ,..., L x D( x) Nous voulons un algorithme de RdF performant x R d , D(x) " la vraie classe" Cout d' une règle de décision D min J ( D) DD J ( D) E C S , D( X ) C sk , D( x) f X x, k dx PS sk K k 1 Théorème de Bayes (et non la règle) loi à priori loi à posteriori vraisembla nce P S sk Ex : en français P(e) = 0,12 Ex : après avoir observé x P S s k x quelle est P(e|x) ? f X ( x, k ) (analogue à P x S sk loi des " observatio ns" f X ( x) f X ( x, k )PS sk loi jointe P S sk , x k PS sk , x PS sk x f X ( x) On choisi une observation, et on décide PS sk , x f X ( x, k ) PS sk On choisi la source, et on émet f X ( x, k ) PS sk Attention à la confusion théorème : PS sk x f X ( x) source - action Cout d' une règle de décision D min J ( D) DD J ( D) E C S , D( X ) C sk , D( x) f X x, k dx PS sk K k 1 illustration sans autre information on décide toujours qu’un pixel vient de la zone (source 1) 10 20 30 source 1 40 50 car P(S1) > P(S2) 60 70 A PRIORI 80 90 source 2 100 10 20 30 40 50 60 70 80 90 que se passe t’il si l’on connaît 100 un caratéristique : x l’intensité illustration 10 Caractéristique : x l’intensité on décide l’action qui « coûte » le moins cher 20 30 source 1 40 en cout 0-1 c’est la classe max A POSTERIORI 50 60 70 2000 f(x|s1) 80 90 source 2 f(x|s2) 1500 1000 100 10 20 30 40 50 60 70 80 90 100 Les vraisemblances Pa1 x f x, S1 PS1 500 0 -50 0 x 50 100 illustration 0.8 Pa2 x f x, S2 PS2 Pa1 x f x, S1 PS1 0.7 f(x|s2) 0.6 0.5 0.4 0.3 f(x|s1) 0.2 0.1 0 -8 -6 -4 -2 0 2 Règle de décision 4 6 8 10 12 notations S s1 ,..., sk ,..., sK espace des sources Rd espace des caractéristiques A 1,2,..., L ensemble des actions (classes autres) RdF D : R d 1,..., l ,..., L x y D( x) Cout C : S A R sk , al C sk , al loi à priori loi à posteriori vraisembla nce J coût d ’une règle de décision (erreur de prédiction) P sk Pal x f X ( x, k ) (analogue à P x sk loi des " observatio ns" f X ( x) f X ( x, k )Psk loi jointe Pal , x k Cas particulier des 2 classes et coûts 0-1 S , la source est une variable aléatoire qui peut prendre 2 valeurs s0 0 et s1 1 lois à priori (Bernouilli) Ps0 , Ps1 ou PS 0 , p PS 1 lois à posteriori Ps0 x , Ps1 x ou PS 0 x , PS 1 x P S 0 x 1 P S 1 x r ( x ) P S 1 x dans ce cas : E S x 0 * PS 0 x 1* PS 1 x PS 1 x r ( x) vraisembla nces lois des " observatio ns" f X ( x,0), f X ( x,1) (analogue à P x S f X ( x) f X ( x,0) PS 0 f X ( x,1) PS 1 f X ( x,0)1 p f X ( x,1) p lois jointes PS , x composée de P0, x et de P1, x soit CO x pour lesquels on décide l' action a0 Perreur P X CO et S 1 P X C0 et S 0 Cas particulier des 2 classes et coûts 0-1 2 sources s0 0 et s1 1, S suit une loi de Bernouilli de probabilité p pas de rejet, 2 actions a0 (c' est la source s0 ) et a1 (c' est la source s1 ) C( 0 ,0 ) 0 ; C( 0 ,1 ) 1 0 si k l Cout Csk , al C( 1,0 ) 1 ; C( 1,1 ) 0 1 sinon (k l ) Cout d' une règle de décision D min J ( D) DD J ( D) E C S , D( X ) C sk , D( x) f X x, k dx PS sk 2 k 1 1 p C s0 , D( x) f X x,0 dx p C s1 , D( x) f X x,1 dx 1 p f X x,0 dx p f X x,1 dx D ( x ) 1 PS 0 x f X x dx D ( x ) 1 D ( x ) 0 PS 1 x f X x dx D ( x ) 0 P X C0 et S 0 P X CO et S 1 Perreur Minimiser J(D) c’est minimiser la probabilité d’erreur Théorème fondamental Définition : règle de décision du maximum « a posteriori » 1 D * ( x) 0 si PS 1 x r ( x) 1 / 2 sinon Théorème : - D* est la règle de Bayes (celle qui minimise la probabilité d’erreur) - J*=J(D*)=P(D*(x)=S) est la plus petite erreur possible (et donc de coût minimal dans le cadre deux classes 0-1) loi à posteriori 1 0.5 0 on dé cide la classe 0 x* on dé cide la classe 1 tel que r(x*)=1/2 x Définition fondamentale Coût minimum = maximum à posteriori = minimum d’erreur Pour f X ( x, k ) et Psk donnés probabilité d' erreur d' une règle de décision (classifie ur) : J ( D) P D( X ) S le meilleur classifieu r possible : D* D* arg min P D( X ) s arg min J ( D) DD DD Définitions : - D* est appelée règle de Bayes c’est la règle qui donne la plus petite probabilité d’erreur - le problème qui consiste à rechercher D* est le problème de Bayes - J*=J(D*) est appelée l’erreur de Bayes Résumé : problème de RdF S s1 ,..., sk ,..., sK espace des sources Rd espace des caractéristiques A 1,2,..., L ensemble des actions (classes autres) RdF D : R 1,..., l ,..., L x y D( x) d C : S A R sk , al C sk , al Cout loi à priori P sk vraisembla nce f X ( x, k ) (analogue à P x sk Cout d' une règle de décision D min J ( D) (erreur de prédiction) DD J ( D) E C S , D( X ) C sk , D( x) f X x, k dx PS sk K k 1 2 classes - cout 0 - 1 cout probabilité d' erreur d' une règle de décision (classifie ur) : J ( D) P D( X ) S le meilleur classifieu r possible : D* règle de Bayes D* arg min P D( X ) s arg min J ( D) DD DD Illustration 1d pour deux classes f X(x,0) ~ N(m0,1) f X(x,1) ~ N(m1,1) r(x) = P(S=1|x) P(S=0|x) = 1-r(x) densité e et loi à posteriori illustration classe 0 classe 1 classe 0 classe 1 Démonstration du théorème fondamental (maximum a posteriori) PD( X ) S X x 1 PD( X ) S X x 1 PD( X ) 1 et S 1 X x PD( X ) 0 et S 0 X x 1 1D ( X )1 P S 1 X x 1D ( X )0 PS 0 X x 1 1D ( X )1 r ( x) 1D ( X )0 1 r ( x) 1 2r ( x) 1D ( X )1 J D J D * 2r ( x) 11D*( x )1 1D ( x )1 0 1 si D* 1 r ( x) les deux terme s sont positifs 2 1 si D* 0 r ( x) les deux terme s sont négatifs 2 Il est difficile de minimiser J(D) (démonstration constructive) car la fonction coût n’est pas dérivable Interprétation en terme de moindres carrés à x fixé min E D( X ) r ( x) r ( x) S X x min D( X ) r ( x) E r ( x) S X x min J ( D) min E D( X ) S 2 X x D D 2 D 2 2 2 E D( X ) r ( x) r ( x) S X x min D( X ) r ( x) 2 E r ( x) S 2 X x D D min D( X ) r ( x) 2 D r ( x ) E S X x P S 1 X x La minimisation de l’erreur quadratique mène à la règle de Bayès min J ( D) min E D( X ) S X x La minimisation D D de l’erreur absolue aussi ! r ( x) Rejet : règle de Chow Définition : règle de décision du maximum « a posteriori » 1 si PS 1 x r ( x) A 1 / 2 D * ( x) 0 si PS 0 x 1 r ( x) A 1 / 2 rejet sinon 1 1/2 densité e et loi à posteriori A classe 0 classe 1 classe 0 classe 1 Rejet d’ambiguité x classe 0 rejet classe 1 Rejet de distance (Dubuisson) rejet de distance si P x D sinon : classe 1 D * ( x) si PS 1 x r ( x) A 1 / 2 si PS 0 x 1 r ( x) A 1 / 2 classe 0 sinon rejet d' ambiguïté 1 1/2 densité e et loi à posteriori A classe 0 classe 1 classe 0 classe 1 règle du MAP (bayes pour le coût 0-1) D rejet de distance classe 0 D = 0 et A = .5 : x rejet classe 1 rejet de distance illustration 0.7 6 f X(x,0) ~ N(m0,1) 2 f X(x,1) ~ N(m1,1) C1 0.7 4 0.7 Illustration 2d pour deux classes 0 r(x) = P(S=1|x) -2 0.7 P(S=0|x) = 1-r(x) C0 ?????? -4 P(x) = f X(x,0) + f X(x,1) rejet d’ambiguïté -6 -4 -2 0 2 4 6 8 illustration Discrimination de Parzen 6 4 2 0 -2 -4 -6 -4 -2 0 2 4 6 8 Un exemple simple S=0 vous ratez votre DEA, S=1 vous l’avez X : le nombre d’heures de travail par semaine x posons P S 1 X x xc on l' a si x 1 x c xc 2 règle de Bayes x 1 on rate si xc xc 2 min c, X J D * E min r ( x),1 r ( x) E c X si X c (école militaire ou vous êtes obligés d' étudier c heures) 1 alors J D * (pouvoir prédictif nul !) 2 si X ~ uniforme 0,4c 1 4c min c, x alors J D * dx 0,3... 4c 0 c x Un exemple simple S=0 vous ratez votre DEA, S=1 vous l’avez X : le nombre d’heures de travail par semaine x posons P S 1 X x xc on l' a si x 1 x c xc 2 règle de Bayes x 1 on rate si xc xc 2 min c, X J D * E min r ( x),1 r ( x) E c X si X c (école militaire ou vous êtes obligés d' étudier c heures) 1 alors J D * (pouvoir prédictif nul !) 2 si X ~ uniforme 0,4c 1 4c min c, x alors J D * dx 0,3... 4c 0 c x Résumé : problème de RdF S s1 ,..., sk ,..., sK espace des sources Rd espace des caractéristiques A 1,2,..., L ensemble des actions (classes autres) RdF D : R 1,..., l ,..., L x y D( x) d C : S A R sk , al C sk , al Cout loi à priori P sk vraisembla nce f X ( x, k ) (analogue à P x sk Cout d' une règle de décision D min J ( D) (erreur de prédiction) DD J ( D) E C S , D( X ) C sk , D( x) f X x, k dx PS sk K k 1 Psk , f X x, k trouver un algorithme A tel que : A xi , yi , i 1, n " ressemble" à D* la règle de Bayes RdF : stratégie de Base 1. Estimer f X ( x, k ) et Psk 2. Retrouver la règle de Bayes Alternative minimiser directement la probabilité d’erreur (estimer une densité est un problème très difficile) la base d' aprentissa ge l' échantillon ensemble de couples (caractéristiques - étiquettes ) X 1 , Y1 , X 2 , Y2 ,..., X i , Yi ,..., X n , Yn un classifieu r : Dn ( x) une erreur de classifica tion : J n J Dn ( x) J n PDn ( X ) S X 1 , Y1 , X 2 , Y2 ,..., X i , Yi ,..., X n , Yn Comment comparer deux algorithmes Soit D1 et D2 deux algorithmes (kppv et arbres de décision) Soit J1 = J(D1) l ’erreur de classification de D1 et J2 = J(D2) Imaginons que nous connaissions J1 et J2 Sur un échantillon D1 est meilleur, sur un autre c’est D2 comment les comparer ? En moyenne : E(J) (l’espérance sur tous les échantillons possibles) Définition un algorithme est dit consistant si * lim E J ( Dn ) J n la probabilité d’erreur tend vers son minimum si c’est vrai quelle que soit la distribution des exemples, l’algorithme est dit universellement consistant Théorème (Stone 1977) L’algorithme des kppv est un algorithme universellement consistant k n k (n) n et 0 n pour un vecteur caractéristique x soient X 1,X 2 ,...,X k les k caractéristiques les plus proches de x soient Y1,Y2 ,...,Yk les étiquettes correspond antes Dn ( x) vote majoritaire des k Y Attention : un bon algorithme peut donner un mauvais classifieur (on peu aussi gagner au loto) A savoir Variable aléatoire • cas discret (un exemple) • cas continu (un exemple) Probabilité, probabilité conditionnelle fonction de répartition et densité loi usuelles : bernouilli, binomiale, poisson, normale Espérance, •cas discret (un exemple) •cas continu (un exemple) Variance Quiz de 5 minutes maintenant Conclusion Un problème de reconnaissance des formes se caractérise par une loi à priori, une vraisemblance (souvent inconnues), une fonction coût et un échantillon (souvent connus). La meilleure solution possible (souvent inconnue) la règle de Bayes c’est le MAP qui minimise la probabilité d’erreur Il faut en plus faire du rejet Reste à savoir comment approcher la règle de Bayes à partir de l’échantillon deux stratégies sont possibles : 1. Approcher les lois inconnues puis appliquer le principe du MAP (la « règle de bayes » sur une approximation des lois) 2. Minimiser directement une estimation de la probabilité d’erreur