RECONNAISSANCE DE FORMES IAR-6002 Sélection et/ou extraction des caractéristiques Introduction Critères d’évaluation de caractéristiques Sélection des caractéristiques Extraction des caractéristiques Introduction Le but recherché par la sélection et l’extraction des caractéristiques est de diminuer le plus possible le nombre de caractéristiques utilisées pour représenter les formes à classifier De plus, nous pouvons alors estimer le pouvoir discriminant des caractérisques permettant la différenciation d’objets de classes distinctes Introduction Nous pouvons réduire le nombre de caractéristiques requises de deux façons: – Une approche consiste à trouver les d caractéristiques parmi les D possibles qui discriminent le mieux les formes à classer Introduction Une seconde approche consiste à projeter l’ensemble des caractéristiques originales dans un autre espace de caractéristiques de dimension inférieure (extraction de caractéristiques) Introduction Pour résoudre le problème de sélection ou d’extraction de caractéristiques nous devons spécifier: – Les critères d’évaluation des caractéristiques – La dimension des espaces de caractéristiques – La procédure de recherche optimale – Le type de transformation (extraction) Introduction Nous utilisons les notations suivantes: – Caractéristiques originales yk, k = 1,2,....,D y = [y1,y2,...,yD]T – Chaque observation (objets, formes) y appartient à une des m classes possibles Ci, i= 1,2,....,m – Nous savons que l’occurrence des vecteurs y est modélisée par un processus aléatoire représenté par la probabilité conditionnelle p(y|Ci) et la probabilité à priori P(Ci) Introduction Nous utilisons les notations suivantes: – Un ensemble contient les caractéristiques candidates j, j=1,2,...,d – Les caractéristiques optimales sont dénotées par X={xj|j=1,...,d} et découle du calcul d’un critère d’évaluation J() – Pour la sélection, nous cherchons: J(X) = maxJ() qui représente les caractéristiques qui maximise le critère de sélection Introduction Nous utilisons les notations suivantes: – Pour l’extraction, nous cherchons: J(A) = maxAJ(A) où A est un extracteur optimal – Avec A connu nous pouvons déduire x par: x = A(y) Critères d’évaluation de caractéristiques Basé sur la probabilité d’erreur – Dans un espace de caractéristiques de dimension d définit par un ensemble de caractéristiques = [1,...,d] la probabilité d’erreur est donnée par P ( E ) 1 max P (Ci ) p ( ) d i 1 ,..., d T m p ( ) p ( Ci ) P (Ci ) Pdf mixte de i 1 P (Ci ) p ( Ci ) P (Ci ) p ( ) Pdf à posteriori Critères d’évaluation de caractéristiques Basé sur des mesures de distances probabilistes – Le concept de distance probabiliste fait référence à la distance entre 2 pdf et est aussi fonction du degré de chevauchement des 2 pdf J ( ) f p( Ci ), P(Ci ), i 1,2d • J = 0 quand p(|Ci) pour i = 1 et 2 se chevauchent • J est maximum quand il n’y a pas de chevauchement Critères d’évaluation de caractéristiques Basé sur des mesures de distances probabilistes – Les principales distances probabilistes sont: Bhattacharyya et Patrick-Fisher J B ln p( C1 ) p( C2 ) d JP 1/ 2 p( C ) p( C ) d 2 1 2 1/ 2 Critères d’évaluation de caractéristiques Basé sur des mesures de distances probabilistes – Les principales distances probabilistes dans leurs formes moyenne sont: Bhattacharyya et Patrick-Fisher J B ln p( C1 ) P(C1 ) p( C2 ) P(C2 ) JP 1/ 2 d p( C )P(C ) p( C )P(C ) d 2 1 1 2 2 1/ 2 Critères d’évaluation de caractéristiques Basé sur des mesures de distances probabilistes – Si nous supposons que les pdf conditionnelles sont normales alors p( Ci ) 1 det i (2 ) d e 1 ( i )T i1 ( i ) 2 Critères d’évaluation de caractéristiques Basé sur des mesures de distances probabilistes – La distance de Batthacharyya devient 1 1 2 1 1 2 T 1 J B 2 1 1 2 2 1 ln 4 2 1 2 Critères d’évaluation de caractéristiques Basé sur des mesures de distances probabilistes – La distance de Mahalanobis est donnée par J M 2 1 2 1 SI 1 2 T 1 Critères d’évaluation de caractéristiques Basé sur des mesures de distances probabilistes – Un critère d’évaluation dans le cas multi-classe peut être déduit par une moyenne pondérée des distances entre 2 classes ij Jij() de la forme m m J ( ) P(Ci ) P(C j ) J ij i 1 j i 1 Critères d’évaluation de caractéristiques Basé sur des mesures de dépendances probabi- listes – La dépendance des variables aléatoires et Ci est incorporée dans la pdf conditionnelle p(|Ci), pour i=1,...,m – Si et Ci sont indépendants alors p(|Ci) = p(), ce qui veut dire que la iieme pdf conditionnelle est identique à la pdf mixte – Dans ces circonstances, une observation sera difficile à classer Critères d’évaluation de caractéristiques Basé sur des mesures de dépendances probabi- listes – Le degré de dépendance entre les variables et Ci peut alors être donné par une distance entre la pdf conditionnelle p(|Ci) et la pdf mixte p() – Mesure de dépendance probabiliste (PatrickFisher) J R P(Ci ) p( Ci ) p( ) d m i 1 2 1/ 2 Critères d’évaluation de caractéristiques Basé sur des mesures d’entropie – Le degré de dépendance entre les variables et Ci peut aussi être donné par des mesures d’entropie – L’entropie mesure le degré d’incertitude. Lorsque le gain d’information est faible l’incertitude est maximale. Si nous avons une observation et que nous calculons P(Ci |) pour i=1,...,m, et que P(Ci |) est équiprobable, l’incertitude est dans ce cas maximale Critères d’évaluation de caractéristiques Basé sur des mesures d’entropie – Mesure d’entropie (Distance Bayesienne) J Q P Ci p d m 2 i 1 Critères d’évaluation de caractéristiques Basé sur des mesures de distances inter-classe – Si nous avons un ensemble d’observations représentatives de chacune de nos classes et que nous supposons que les observations associées à chaque classe occupe une région distincte dans l’espace des observations – La distance moyenne entre les paires d’observations d’entraînement devient alors une mesure de discrimination des classes Critères d’évaluation de caractéristiques Basé sur des mesures de distances inter-classe – Une métrique (ik,jl) permet de mesurer la distance entre l’observation k de la iième classe et l’observation l de la jième classe Ni j m m 1 1 – La distance moyenne J P(Ci ) P(C j ) ik , jl 2 i 1 N i N j k 1 l 1 j 1 est donnée par N d C k , l kj lj j 1 2 E k , l kj lj j 1 d 1/ 2 Sélection des caractéristiques Basé sur le mérite individuel – Si nous avons un ensemble de caractéristiques yj pour j=1,...,D, à partir d’un sous-ensemble de caractéristiques de cardinalité d nous cherchons le vecteur de caractéristiques optimal X – Pour trouver ce vecteur X il faut alors considérer D!/(D-d)!d! combinaisons de vecteurs de caractérisques ce qui est excessif Sélection des caractéristiques Basé sur le mérite individuel – Si nous avons m=2 (2 classes) avec des pdf conditionnelles p(|Ci) distribuées de façon normale avec 1=2 sur la diagonale (les mesures sont indépendantes) la distance de Mahalanobis s’exprime alors par d J M j 1 1j 2 j 2 jj Sélection des caractéristiques Basé sur le mérite individuel – La contribution de chaque mesure pour la discrimination des classes est indépendantes des autres mesures – Nous pouvons alors sélectionner les d meilleures caractéristiques en sélectionnant les d meilleures mesures individuelles Sélection des caractéristiques Basé sur le mérite individuel – Procédure • Calculer JM(yj), pour j=1,2...,D et les classer selon un ordre décroissant JM(y1) > JM(y2) > .... > JM(yD) • Le meilleur vecteur de caractéristiques X = {yj|j=1,...,d} Sélection des caractéristiques Basé sur une sélection séquentielle avant SFS et arrière SBS – La méthode SFS est buttom-up. Partant d’un ensemble vide nous sélectionnons comme première caractéristique celle qui discrimine le mieux nos classes – À chaque itération, nous choisissons une caractéristique qui jumelée à celle trouvées aux étapes précédentes permet une discrimination maximale des classes Sélection des caractéristiques Basé sur une sélection séquentielle avant SFS et arrière SBS – L’algorithme SFS • Initialisation X0 = • Si nous avons sélectionné k caractéristiques de l’ensemble des mesures Y = {yj|j=1,...,D} pour produire le vecteur de caractéristiques Xk. • La (k+1)ième caractéristique est alors choisie à partir de l’ensemble des mesures disponibles Y - Xk tel que J(Xk+1) = max J(Xk yj), yj Y - Xk. Sélection des caractéristiques Basé sur une sélection séquentielle avant SFS et arrière SBS – La méthode SBS est top-down. Partant de l’ensemble des mesures Y nous éliminons alors une mesure à la fois – À chaque itération, nous éliminons une caractéristique qui diminue peu le critère J(). Ce qui veut dire que cette caractéristique contribue faiblement à la discrimination des classes Sélection des caractéristiques Basé sur une sélection séquentielle avant SFS et arrière SBS – L’algorithme SBS • Initialisation XD = Y • Si nous avons éliminé k caractéristiques de l’ensemble des mesures Y = {yj|j=1,...,D} pour produire le vecteur de caractéristiques XD-k. • La (k+1)ième caractéristique à éliminer est alors choisie à partir de l’ensemble des mesures disponibles XD-k tel que J(XD-k-1) = max J(XD-k - yj), yj XD-k. Sélection des caractéristiques Basé sur une sélection séquentielle avant SFS et arrière SBS – L’algorithme SFS est sous optimal • Aucun mécanisme ne permet d’éliminer une caractéristique qui devient superflue après l’inclusion d’autres caractéristiques – De même, l’algorithme SBS est aussi sous optimal • Aucun mécanisme ne permet de rajouter une caractéristique éliminer Sélection des caractéristiques Basé sur l’algorithme Plus l-Take Away r – Nous pouvons réduire les problèmes de sous optimalité dénoté dans les méthodes SFS et SBS par un processus d’alternance d’ajout et de retrait de caractéristiques – Après avoir ajouté l caractéristiques à l’ensemble des caractéristiques courante, r caractéristiques sont alors retirée – La dimension de l’ensemble des caractéristiques change alors de l-r Sélection des caractéristiques Basé sur l’algorithme Plus l-Take Away r – Ce processus continu jusqu’à ce que la dimension requise soit atteinte – Si l > r la sélection progresse de façon BUTTOM-UP et TOP-DOWN si l < r Sélection des caractéristiques Basé sur l’algorithme Plus l-Take Away r – L’algorithme Plus l-Take Away r (l > r) – Si nous avons Xk l’ensemble des caractéristiques actuelles • Appliquer SFS l fois pour générer un ensemble Xk+l • Appliquer SBS r fois pour générer un ensemble Xk+l-r • Continuer TANT QUE k + l - r != d Sélection des caractéristiques Basé sur l’algorithme Plus l-Take Away r – L’algorithme Plus l-Take Away r (l < r) – Si nous avons Xk l’ensemble des caractéristiques actuelles • Appliquer SBS r fois pour générer un ensemble Xk-r • Appliquer SFS l fois pour générer un ensemble Xk-r+l • Continuer TANT QUE k - r + l != d Cas particulier – (l,r)=(l,0) => algorithme SFS – (0,r) => algorithme SBS Sélection des caractéristiques Basé sur l’algorithme MIN-MAX – La sélection est basée sur le mérite des caractéristiques prises individuellement ou par paire – Supposons que nous avons déjà sélectionné k caractéristiques, nous pouvons alors évaluer le mérite de l’ensemble de caractéristiques restantes Y-Xk en déterminant la quantité d’information nouvelle quelles ajoutent si elles sont ajoutées à l’ensemble des caractéristiques Sélection des caractéristiques Basé sur l’algorithme MIN-MAX – La quantité d’information nouvelle ajoutée de l’ajout d’une caractéristique yj Y - Xk à une autre xl Xk est donnée par: J ( y j , xl ) J ( y j , xl ) J ( xl ) Sélection des caractéristiques Basé sur l’algorithme MIN-MAX – Nous cherchons alors une caractéristique yj dont l’ajout d’information est grand pour toutes les caractéristiques Xk – Nous cherchons yj qui maximise pour tout les j le minimum de J(yj,xl) pour tout les l Sélection des caractéristiques Basé sur l’algorithme MIN-MAX – Algorithme MIN-MAX • Si xk est l’ensemble des caractéristiques courantes. Nous cherchons la caractéristique Xk+1 = yj Y - Xk qui satisfait J ( xk 1 , xr ) max min J ( y j , xl ), xl X k j l