Analyse et codage des signaux Plan Plan Composantes d’un système • Composantes d’un système de reconnaissance des formes Réduction de dimension Sélection de caractéristiques Apprentissage • Méthodes statistiques pour la réduction de dimension • Sélection de caractéristiques • Techniques d’apprentissage Mohamed CHETOUANI [email protected] 2 Système de reconnaissance des formes Plan Composantes d’un système Plan Composantes d’un système Définition générale: Réduction de dimension Sélection de caractéristiques Apprentissage Système de reconnaissance des formes Réduction de dimension A partir de mesures d’une forme inconnue, il s’agit de: • Trouver une représentation pertinente de la forme • Classer en catégorie 3 Sélection de caractéristiques Apprentissage • Capteur • Pré-traitements • Extraction de paramètres • Algorithme de classification • Mais également des données (étiquetées ou non) 4 Terminologie Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Caractéristiques, codes: ensemble de variables déterminé à partir de propriétés de l’objet. « Choisir » des caractéristiques discriminantes et indépendantes est un point clé de tout problème de reconnaissance des formes. Terminologie Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Espace des caractéristiques: espace de dimension d formé par l’ensemble des caractéristiques. Apprentissage Vecteur de caractéristique: Association de plusieurs caractéristiques. Vecteur de dimension d représentant l’objet. Espace 3D Distribution des données dans l’espace des caractéristiques 5 6 Terminologie Plan Composantes d’un système Classe: Catégorie à laquelle appartient l’objet. Réduction de dimension Sélection de caractéristiques Apprentissage Terminologie Plan Composantes d’un système Réduction de dimension Forme: Ensemble des caractéristiques de l’objet traité. Dans certains cas, on associe au vecteur caractéristique la classe de l’objet. Sélection de caractéristiques Frontière de décision: Hyper-plan, fonction de dimension d permettant la séparation des formes en différentes classes. Apprentissage Exemple: une des instances d’un même objet ⇒ Objet: lettre A Variabilité entre scripteurs Exemple de l’objet « A » 7 8 Problème de dimension des vecteurs caractéristiques Terminologie Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Données/Base d’apprentissage: données utilisées pour la conception du système de reconnaissance. Ces données sont a priori étiquetées. Plan Composantes d’un système Réduction de dimension Explosion du nombre et de la dimension des données… Sélection de caractéristiques Apprentissage Données/Base de test: données utilisées pour l’estimation des performances du système de reconnaissance. ⇒ Utilisation industrielle: lecteur de chèques, code postaux, biométrie … 9 10 Problème de dimension des vecteurs caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Aspects pratiques: Relation dimension des vecteurs caractéristiques / performances du classifieur Problème de dimension des vecteurs caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Approches pour la réduction de dimension: • extraction de caractéristiques: créer un sousensemble de nouvelles caractéristiques par combinaison des caractéristiques existantes • sélection de caractéristiques: choisir un sousensemble de caractéristiques pertinent Rechercher une solution optimale 11 12 Problème de dimension des vecteurs caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Formalisation du problème de la réduction de dimension: La réduction de dimension consiste à transformer le vecteur le x (dimension N) en un vecteur y (dimension M) avec M<N: y=f(x) Problème de dimension des vecteurs caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Réduction de dimension par projection du vecteur caractéristique: y=f(x)=Wx La fonction f réalise la réduction de dimension. La réduction de dimension ne doit pas diminuer les performances en classification. Projection (combinaison) linéaire ou non-linéaire, séparation des classes (discriminantes). 13 14 Stratégies de réduction de dimension Plan Composantes d’un système Réduction de dimension •La projection de données nécessite la minimisation d’un critère. Sélection de caractéristiques Apprentissage Données Plan Composantes d’un système Réduction de dimension Ensemble d’apprentissage : S exemples étiquetés formés de N descripteurs (variables) Sélection de caractéristiques •Deux types de critères: •Représentation du signal: Représenter les données dans un espace de plus petite dimension. Analyse en Composantes Principales •Classification: Projection dans un espace (de plus petite dimension) qui maximise la séparabilité des classes. Analyse Discriminante 15 Apprentissage X = {x(1), x (2)…, x (S)} avec x(j) = (x1, x 2, … , xN) X : réalisation d’un échantillon de taille S d’un vecteur aléatoire de dimension N Statistiques associées à X - moyenne : x = 1 " x (j) S j - matrice de covariance : ! = S1 !(x (j) j ! 16 T " x )(x(j)" x ) Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Analyse de la variabilité des données à travers la matrice de variance-covariance Excepté si l’une des variables peut s’exprimer comme une fonction d’autres variables, N variables sont nécessaires pour rendre compte de toute la variabilité Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Composantes : b1, b2 … bM bk : nouvelle variable = combinaison linéaire des variables bk = u1k x1 + u2k x2 + … + uMk xM Coefficients uik à déterminer pour que les bk soient : - 2 à 2 décorrélés - de variance maximale - d’importance décroissante Objectif de l’ACP : décrire à l’aide de M < N variables un maximum de cette variabilité compression des données décrites par M nouvelles variables visualisation des données en 2D ou 3D (si M = 2 ou 3) interprétation des données : liaisons inter-variables 17 18 Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage •Données image = un vecteur, 1 composante / pixel •Données codées = un vecteur, 1 composante / descripteur Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Trouver le sous-espace de dimension M approchant au mieux les données Apprentissage 60 70 = = x 2 R4200 vecteur « texture » N = 4200 pixels 19 20 Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Directions de variation = vecteurs φ1, φ2,…, φM Apprentissage Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Illustration: Sélection de caractéristiques Apprentissage 21 22 Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Analyse en Composantes Principales Plan Composantes d’un système Illustration: Réduction de dimension Sélection de caractéristiques Sélection de caractéristiques Apprentissage Apprentissage Décorrélation des axes Calcul: φ1,…,φM: vecteurs propres associées aux plus grandes valeurs propres λ1,…, λM de la matrice de covariance: ∑X=E[(X-µ).(X-µ) t] Matrice de covariance du vecteur X Diagonaliser: ∑X=Φ.Λ.Φt Où: Λ est une matrice diagonale contenant les valeurs propres de la matrice de covariance Et Φ est une matrice contenant les vecteurs propres. 23 24 Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Vecteurs et valeurs propres Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Sélection de caractéristiques Apprentissage Apprentissage Inertie expliquée: λi = variance de la i ème composante transformée bi = inertie du i ème axe principal i % inertie par axe = N" i !"i % inertie cumulée = i Réduction de dimension Sélection de caractéristiques Apprentissage Analyse en Composantes Principales Plan Composantes d’un système Critère de Joliffe : Réduction de dimension conserver les λi tq le % d’inertie expliquée est supérieur à un seuil (δ = 90/95 %) i =1 26 Analyse en Composantes Principales Plan Composantes d’un système Sélection de caractéristiques Apprentissage Applications: ACP pour la compression de données : Exemple 1 : modélisation des expressions faciales ACP pour la classification : Exemple 2 : reconnaissance de caractères Critère de Kaiser : conserver les λi supérieures à la moyenne ACP pour l’analyse de données : Critère de Catell (scree test): conserver les λi avant apparition du « coude » 27 i =1 N !" i=1 25 M !" 28 Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Base de visages de Carnegie-Mellon University (CMU) : – une centaine de sujets, sans barbe ni lunettes – images de visages en vue frontale – images normalisées, incluant les 6 expressions faciales : joie, peur, tristesse, dégoût, colère, surprise + neutre Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Visages propres φ1,…,φM : eigenfaces Apprentissage Reconstruction avec 30 modes : 29 30 Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Analyse en Composantes Principales Exemple 2 : ACP sur les caractères Plan Composantes d’un système Base NIST : Apprentissage Réduction de dimension Sélection de caractéristiques Exemple 2 : ACP sur les caractères Compression –250 exemples/classe (apprentissage : 200, test : 50) –Images 12x12 normalisées Compression : –M composantes principales Classification : –ppv sur les exemples compressés 31 32 Analyse en Composantes Principales Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Exemple 2 : ACP sur les caractères Reconnaissance Apprentissage Analyse en Composantes Principales non-linéaire Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Réseau auto-associatif : Yd = X Couche cachée de petite taille compression des données Les composantes principales sont les sorties de la couche cachée Apprentissage : minimisation de l’erreur de reconstruction Utilisation : codage des données 33 34 Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Formalisation du problème de la réduction de dimension: La réduction de dimension consiste à transformer le vecteur le x (dimension N) en un vecteur y (dimension M) avec M<N: y=f(x) La fonction f réalise la réduction de dimension. La réduction de dimension ne doit pas diminuer les performances en classification. 35 Analyse discriminante Plan Composantes d’un système Réduction de dimension •La projection de données nécessite la minimisation d’un critère. Sélection de caractéristiques Apprentissage •Deux types de critères: •Représentation du signal: Représenter les données dans un espace de plus petite dimension. Analyse en Composantes Principales •Classification: Projection dans un espace (de plus petite dimension) qui maximise la séparabilité des classes. Analyse Discriminante 36 Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Analyse discriminante Plan Composantes d’un système Limites de l’ACP : Réduction de dimension - cherche à expliciter la variance totale des variables mesurées Sélection de caractéristiques Apprentissage Variable 2 - ne tient pas compte de l’information de classe (technique non supervisée) - mesure : variance totale classe 1 classe 2 Objectifs de l’AFD : - cherche à maximiser la covariance entre les variables Variable 1 - utilise l’information de classe Trouver un nouvel espace (combinaison des variables initiales) permettant de discriminer au mieux les classes - mesure : variances inter-classe et intra-classe 37 38 Analyse discriminante Analyse discriminante Plan Composantes d’un système Plan Composantes d’un système Réduction de dimension Réduction de dimension Sélection de caractéristiques Sélection de caractéristiques Apprentissage Apprentissage Mesure de séparation entre deux projections: Distance entre les « moyennes projetées »: Distributions normales Variables indépendantes Zone d’incertitude sur les 2 variables incorrecte 39 40 Analyse discriminante Plan Composantes d’un système Réduction de dimension Distance entre les « moyennes projetées »: Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Sélection de caractéristiques Apprentissage Apprentissage Critère de Fisher: Pour chacune des classes: estimation de la variance (appelée scatter): Séparabilité plus importante within-class scatter Le critère de Fisher vise à maximiser: Distance plus importante 41 42 Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Critère de Fisher: Le critère de Fisher vise à maximiser: Apprentissage Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Explication: « Rapprochement » des exemples d’une même classe « Eloignement » des moyennes Critère de Fisher: Expression du critère dans l’espace des données x (vs espace de projection y) SW: Matrice de dispersion intra-classe: Expression de la matrice de dispersion de l’espace projeté y dans l’espace des données 43 44 Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Critère de Fisher: Expression de la moyenne de l’espace projeté y dans l’espace des données Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Critère de Fisher: Maximum du critère J(w) Apprentissage Dérivée du critère de Fisher: SB: matrice de dispersion inter-classe Critère de Fisher exprimé en fonction des matrices de dispersion SW et SB: Solution: 45 46 Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Exemple: X1= (x1,x2)= {(4,1),(2,4),(2,3),(3,6),(4,4)} X2= (x1,x2)= {(9,10),(6,8),(9,5),(8,7),(10,8)} Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Exemple: Estimation des matrices de dispersion: Apprentissage inter et intra classe: 47 48 Analyse discriminante Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Exemple: Espace de projection au sens du critère de Fisher: Apprentissage Analyse discriminante Plan Composantes d’un système Réduction de dimension Généralisation à un problème à C classes: Sélection de caractéristiques Apprentissage Matrice de dispersion intra-classe: Avec: 49 50 Analyse discriminante Plan Composantes d’un système Réduction de dimension Généralisation à un problème à C classes: Sélection de caractéristiques Apprentissage Analyse discriminante Plan Composantes d’un système Réduction de dimension Généralisation à un problème à C classes: Sélection de caractéristiques Matrice de dispersion inter-classe: Apprentissage Matrice de dispersion totale : ST= SW + SB Avec: 51 52 Analyse discriminante Plan Composantes d’un système Réduction de dimension Généralisation à un problème à C classes: Sélection de caractéristiques Apprentissage Analyse discriminante Plan Composantes d’un système Réduction de dimension Limitations: Sélection de caractéristiques Projection des données Apprentissage Distributions non-gaussiennes Critère de Fisher 53 54 Analyse discriminante non-linéaire Analyse discriminante Plan Composantes d’un système Réduction de dimension Plan Composantes d’un système Limitations: Réduction de dimension Sélection de caractéristiques Apprentissage Analyse discriminante non-linéaire par réseau de neurones: Sélection de caractéristiques Discrimination des données selon la variance? 55 Apprentissage 56 Analyse discriminante non-linéaire Plan Composantes d’un système Réduction de dimension Transformation de caractéristiques par réseaux de neurones: Analyse discriminante non-linéaire Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Sélection de caractéristiques Apprentissage Apprentissage Transformation de caractéristiques par réseaux de neurones: 57 58 Analyse discriminante non-linéaire Plan Composantes d’un système Réduction de dimension Transformation de caractéristiques par réseaux de neurones: Analyse discriminante non-linéaire Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Sélection de caractéristiques Apprentissage Apprentissage Retour sur le dilemme extracteur de caractéristique / classifieur p(Ci X) = P(X Ci ) p(Ci) P(X) • p(Ci) : probabilité a priori (probabilité de la classe Ci avant d’observer X) • P(X|Ci) : densité de probabilité conditionnelle de X par rapport à Ci • P(X) : densité de probabilité de X : p(x)=∑p(X|Ci)p(Ci) • p(Ci|X) : probabilité a posteriori (l’observation change la probabilité de Ci) 59 60 Analyse discriminante non-linéaire Plan Composantes d’un système Réduction de dimension Retour sur le dilemme extracteur de caractéristique / classifieur Sélection de caractéristiques Apprentissage p(Ci X) = P(X Ci ) p(Ci) Sélection de caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage P(X) Règle de décision: Avec 2 hypothèses: décider C1 si p(C1|X) > p(C2|X) Approches pour la réduction de dimension: • extraction de caractéristiques: créer un sousensemble de nouvelles caractéristiques par combinaison des caractéristiques existantes • sélection de caractéristiques: choisir un sousensemble de caractéristiques pertinent Maximum a posteriori (MAP) Extracteur de caractéristiques: estimation des probabilités Classifieur: fonction « max » 61 62 Sélection de caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Choisir un sous-ensemble de caractéristiques pertinent Apprentissage Sélection de caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Recherche de solution: • Recherche exhaustive impossible… • Exemple: sélection de 10 caractéristiques parmi 100: plus de 1013 sous-ensembles… •Définition d’un critère, d’une fonction pour la sélection 63 Deux voies pour la sélection de paramètres (feature subset selection) : Filter control strategy n’utilise pas le classifieur, mais une fonction d’évaluation qui permet de mesurer la pertinence du sous-ensemble de paramètres légère en calcul fonction d’évaluation difficile à déterminer Wrapper control strategy utilise le résultat de la classification comme mesure de performance. nécessité d’évaluer, pour chaque jeu de paramètres, le taux de reconnaissance du classifieur 64 Sélection de caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Deux voies pour la sélection de paramètres (feature subset selection) : Apprentissage Sélection de caractéristiques Plan Composantes d’un système Filter control strategy: Réduction de dimension Sélection de caractéristiques Apprentissage • Mesures de séparabilité des classes: • Distances Euclidiennes, Mahalanobis, … • Critère de Fisher: det(SW-1SB) • Corrélation, information théorique • Corrélation linéaire des caractéristiques • Maximum d’information mutuelle 65 66 Factorisation en matrices nonnégatives Sélection de caractéristiques Plan Composantes d’un système Réduction de dimension Sélection de caractéristiques Apprentissage Comparaison: Filter: •Avantages: • Exécution rapide • Généralisation •Inconvénients: • Sélection d’un sous-ensemble important: nécessité de fixer la dimension « désirée » du sous-ensemble Wrapper: •Avantages: • Performances en terme de score de reconnaissance • Possibilité de combiner des critères d’arrêt pour la généralisation •Inconvénients: • Exécution lente • « Spécialisation » à un classifieur 67 Plan Composantes d’un système Principe: Réduction de dimension Sélection de caractéristiques Projection •Obtenir une représentation des données en utilisant des contraintes de non-négativité. •Contraintes issues des données: combinaison additive, interprétation… • 68 Factorisation en matrices nonnégatives Plan Composantes d’un système Factorisation en matrices nonnégatives Plan Composantes d’un système Principe: Réduction de dimension Réduction de dimension Sélection de caractéristiques Sélection de caractéristiques Projection Projection • V: matrice de dimension nxm • Les colonnes représentent les vecteurs caractéristiques de dimension n (m vecteurs) • Matrices non-négatives • W: matrice factorisée de dimension nxr • H: matrice factorisée de dimension rxm Principe: • Chaque colonne de W est vecteur de base (basis vector) • Les colonnes de H représentent les poids nécessaires pour approximer la colonne correspondante de W • Comparaison avec l’ACP: • W représente le vecteurs propres (eigenvectors) • H les valeurs propres (eigenprojections) • Choix: (n+m) r < nm • ACP n’a pas de contraintes spécifiques sur la non-négativité des matrices 69 70 Factorisation en matrices nonnégatives Plan Composantes d’un système Plan Composantes d’un système Principe: Réduction de dimension Sélection de caractéristiques Projection Factorisation en matrices nonnégatives Résultats: Réduction de dimension Sélection de caractéristiques • Algorithmes Projection • Critère: optimisation de la divergence: • Méthode itérative: 71 72 Factorisation en matrices nonnégatives Plan Composantes d’un système Factorisation en matrices nonnégatives Plan Composantes d’un système Résultats: Réduction de dimension Réduction de dimension Sélection de caractéristiques Sélection de caractéristiques Projection Projection Résultats: 73 74 Factorisation en matrices nonnégatives Plan Composantes d’un système Base de données Plan Classification Analyse de l’interaction : Réduction de dimension Méthodes directes Sélection de caractéristiques K-ppv bonne mauvaise Génération de prototypes Projection Frontière réelle Frontière estimée exemples nombreux densité homogène 75 exemples peu nombreux densité non homogène 76 Performances d’un classifieur Plan Classification Méthodes directes Mesurées sur l’ensemble de test : K-ppv Génération de prototypes % formes bien classées % formes mal classées % formes non classées Matrice de confusion : Performances d’un classifieur Plan Classification Méthodes directes facteur de qualité Estimation des performances sur une base de test K-ppv Génération de prototypes étude des confusions critères de rejet décision 1 2 étiquette 1 2 Coût d’une décision ? Notion de risque 77 78 Performances d’un classifieur Plan Classification Méthodes directes Performances d’un classifieur Plan Classification N-folds cross-validation Méthodes directes K-ppv K-ppv Génération de prototypes Génération de prototypes 79 N-folds cross-validation 80 Performances d’un classifieur Plan Classification Méthodes directes K-ppv Plan Classification Visualisation des performances: Courbe ROC (Receiver Operating Characteristic) Génération de prototypes Performances d’un classifieur Plan Classification K-ppv Méthodes directes K-ppv Visualisation des performances: Courbe ROC (Receiver Operating Characteristic) Génération de prototypes 81 Méthodes directes Performances d’un classifieur Visualisation des performances: AUC: Area Under ROC Curve Génération de prototypes 83 82