DEA Perception et Traitement de l’Information Reconnaissance des formes discrimination linéaire S. Canu http://psichaud.insa-rouen.fr/~scanu/RdF Buts de la RdF Une forme x (vecteur forme des caractéristiques) D : Algorithme de Reconnaissance des Formes x Rd y 1,2,..., L C’est la forme « y=D(x) » espace des caractéristiques ensemble des décisions RdF D : R d 1,..., l ,..., L x D( x) Nous voulons un algorithme de RdF performant x R d , D(x) " la vraie classe" Cout d' une règle de décision D min J ( D) DD J ( D) E C S , D( X ) C sk , D( x) f X x, k dx PS sk K k 1 RdF et apprentissage Les problèmes P X , Y P les couts : J ( D) et C, J ( D) E C S , D( X ) 1 Ensemble d’apprentissage (échantillon) Sn xi , yi i 1, n 2 Une forme x (vecteur forme des caractéristiques) A : Algorithme d’apprentissage D : Algorithme de Reconnaissance des Formes 3 A priori sur la nature de la solution C’est la forme « y=D(x) » RdF et apprentissage Les problèmes P X , Y P les couts : J ( D) et C, J ( D) E C S , D( X ) 1 Ensemble d’apprentissage (échantillon) Sn xi , yi i 1, n 2 A : Algorithme d’apprentissage 3 A priori sur la nature de la solution D(x) =signe(w’x+b) Une forme x (vecteur forme des caractéristiques) D : Algorithme de Reconnaissance des Formes C’est la forme « y=D(x) » Discrimination linéaire + + + + + + + + + + + + + Discrimination Linéaire X v.a. à valeurs dans R d (d caractéristiques) d frontière de décision linéaire : w j x j b 0 j 1 règle de décision linéaire d wj x j b 0 (ronds rouges) j 1 + d + + wj x j b 0 + + (croix verte) + j 1 + + + + x w 1 1 ... ... x x j , w w j , frontière de décision : w' x b 0 ... ... xd wd Codage {-1,1}, fonction de décision de type « heaviside » + + + Codage et géomètrie d règle de décision linéaire : w j x j b j 1 si y 0 ( y ) 1 où est la " fonction signe " ( y ) 1 si y 0 w’x : produit scalaire Géométrie : illustration dans R2 x1 w1 w , x w2 x2 D( x) signw' x b w' x b 0 b w2 w' x b 0 w' x b 0 w x ° b d w w' x b dist x, w b w1 si x et y w' x b 0 et w' y b 0 w' ( x y ) 0 w est orthogonal à la frontière de décision Quand le discriminateur linéaire est il optimal ? • Quand on le sait à priori… • quand les 2 classes sont gaussiènnes (même matrice de variance covariance, couts 0-1) • quand on a peu d’exemples par rapport à d (rapport n/d) ...et que l’on n’a pas de modèle on peut l’utiliser pour « représenter » les données (cf ACP) Avantages : il est simple on connaît des bornes de l’erreur MAP : cas gaussien règle de décision du MAP : S1 si PS1 x PS 2 x D( x) S 2 si PS 2 x PS1 x D( x) PS1 x PS 2 x PS1 x PS1 x PS 2 x 0 1 P S 2 x f X x,1PS1 1 f X ( x , 2) P S 2 PS 2 f X x,1 f X ( x , 2) PS1 règle de décision du MV : Cas gaussien 1d f X x,1 1 2 2 e x 1 2 2 2 , f X x, 2 x 1 x 2 2 2 1 2 2 e x 2 2 2 2 f X x,1 2 2 2 2 e f X x, 2 2 2 2 2 f X x,1 x 1 x 2 2 x1 2 1 2 ln 2 2 2 2 2 2 f X x, 2 Règle de décision 12 2 2 P( S 2 ) 2 ln : x vient de la source 1 x1 2 2 P ( S1 ) 2 2 P( S 2 ) 2 2 x 1 ln : x vient de la source 2 1 2 2 P ( S1 ) Exemple : communication binaire synchrone la source 1 émet des 0 et la source 2 des 1, le canal est bruité par un bruit blanc, on observe X S , ~ N 0, 2 densité e et loi à posteriori Erreur de décision PS1 p1 2 / 3, p2 1 p1 P x S s1 C12 P x S s2 C21 tables de la loi de Gauss Cas gaussien multidimensionnel f X x, 2 2 d /2 1/ 2 1 1/ 2 e 1 x 1 ' 1 x 1 2 1 x 2 ' 1 x 2 Discrimination de deux classes gausiè nnes 2 3 2 0. 2 d /2 e 0 f X x,1 1 -0. -0.2 4 -0. 6 -0. 8 0.8 0.6 -3 0. 2 0.2 -2 -0.2 6 -0. 0. 4 -1 -0 .4 .2 -0 -0. 4 1 0.2 0 2 0 0.4 Le Discriminateur de Bayes est linéaire... 0.6 0. 6 0.4 1 -0.6 0. 4 0. 2 2 Cas Gaussien (même variance) f X x,1 e f X x, 2 1 1 x 1 ' 1 x 1 x 2 ' 1 x 2 2 2 f X x,1 2 ln x' 1 x 2 2 ' 1 x 2 ' 1 2 f X x, 2 - x' 1 x 2 1 ' 1 x 1 ' 11 21 2 ' 1 x 1 2 ' 1 1 2 PS 2 f X x,1 PS 2 1 1 21 2 ' x 1 2 ' 1 2 ln f X x,2 PS1 PS1 PS 2 1 1 21 2 ' x 1 2 ' 1 2 ln 0 PS1 w' x b 0 avec w 1 2 ' 1 et b ... Mise en œuvre pratique 3 2 1 2.5 0 2 1.5 -1 1 -2 0.5 0 -3 -2 -1 0 1 2 3 4 -0.5 -1 -1.5 -2 -2 -1 0 1 2 3 4 Estimation... et rêve 3 2 1 0 -1 -2 -3 -2 -1 0 1 2 3 4 Discrimination Linéaire wx+ b=0 + + + + + + + + + + + + + Discrimination Linéaire wx+ b=0 + + + + + + + + + + + + + Discrimination Linéaire wx+ b=0 + + + + + + + + + + + + + Discrimination Linéaire wx+ b=0 + + + + + + + + + + + + + Discrimination Linéaire Marge wx+ b=0 Marge + + + + + + + + + + + + + Marge d’un classifieur Définition • frontière x R d 0d R d ,0 , D( x d ) D( x d ) • marge soit f la frontière d' une règle de décision D m, la marge de D pour l' échantillon xi , yi i 1, n est définie par : m min min xi x i 1, n x f • point influent : « proche » de la frontière, • point influent pour une règle D : si l’étiquette change, la frontière change « significativement » (un des points • point non influent