Plan Projection, Discrimination et Classification Analyse Factorielle Discriminante de Fisher (AFD) Régression linéaire au sens des moindre carrées Analyse Discriminante Linéaire (ADL) Lien entre AFD, ADL et RMC Massih-Réza Amini Régression Logistique Exemple d’application: la tâche de Recherche d’Information Techniques d’Analyse de Données et Théorie de l’Information Master M2 IAD – Parcours Recherche [email protected] http://www-connex.lip6.fr/~amini Synthèse sur AFD, ADL, RMC et RL Avantages et Inconvénients de ADL Recherche avec un codage binaire, Vers une meilleure représentation, L’information de classe avec l’AF améliore encore la représentation [email protected] Laboratoire d’Informatique de Paris 6 2 Analyse discriminante de Fisher Analyse Discriminante de Fisher (2) Pb de dimensionnalité : beaucoup de méthodes / techniques (en classif.) sont inappropriées ou inapplicables en grande dimension ⇒ On projette sur un sous-espace • • Critère d’optimisation : Perte possible d’informations Trouver la projection optimale à ce sens x2 x2 w2 [email protected] Solution vérifie : Solution w1 Laboratoire d’Informatique de Paris 6 3 [email protected] Laboratoire d’Informatique de Paris 6 4 Interprétation géométrique La solution de la régression Analyse Discriminante Linéaire B̂ vérifie X (Y − XB̂ ) = X (Y − Ŷ ) = 0 t But : Discrimination ADL dans le cas de populations normales avec une matrice de covariance commune pour les différentes groupes Règle de décision dans le cas bi-classe t Y x2 Ŷ x1 p(c).p(x/c) La réponse du modèle, Ŷ est la projection orthogonale de Y sur l’espace des données. Ŷ = XB̂ = X ( X t X ) X tY −1 x1 x2 Matrice de projection, vérifie la propriété d’idempotence [email protected] Laboratoire d’Informatique de Paris 6 5 Lien entre AF, ADL et RMC Estimation des paramètres du modèle linéaire Dans le cas normal les paramètres du modèle qui maximise ce critère sont x2 y x2 x2 x t.β + 2 β = O 0 β2 = +γ O Critère d’optimisation : logarithme de la vraisemblance complète des données (ou la vraisemblance classifiante) β2 t On suppose que chaque exemple xi appartient à une et une seule classe. x. 6 Laboratoire d’Informatique de Paris 6 [email protected] 0 β2 β1 β2 x1 Analyse Factorielle Discriminante Projection [email protected] Laboratoire d’Informatique de Paris 6 7 [email protected] x1 Analyse Linéaire Discriminante Discrimination Laboratoire d’Informatique de Paris 6 x1 Régression Linéaire au Moindre Carrées Classification 8 AF, LDA et LSR sur un exemple jouet Lien entre AF, ADL et RMC AFD ∝ RMC Si n1 et n2 sont les cardinaux des 2 classes et que les désirées sont codées par (-1)kn /nk pour, k∈{1,2} Les paramètres β qui minimise EMC satisfont l’équation AF, ADL et RMC RMC n1n2 ⎤ ⎡ −1 ⎢ SW + n S B ⎥.β = n(m2 − m1 ) ⇒ β ∝ SW (m2 − m1 ) ⎣ ⎦ μ1 ADL ∝ RMC On remplace le problème d’inégalités dans le cas ADL β μ2 ADL AF RMC Par un problème d’égalités dans le cas RMC [email protected] Laboratoire d’Informatique de Paris 6 ADL 9 [email protected] Régression Logistique 10 Régression Logistique (2) On modélise le logarithme du rapport des densités conditionnelles de classes par des fonctions linéaires. Pour le cas bi-classes : Critère d’optimisation équivalente (cas bi-classe) Les dérivées partielles d’ordre 1 et 2 de L′c en fonction de Β sont : Solution par approximation numérique et pas de solution exacte Propriétés Les probabilités a posteriori ont une forme simple (logistique) Laboratoire d’Informatique de Paris 6 Une grande variété de familles de distributions vérifient l’hypothèse de départ. Critère d’optimisation : vraisemblance classifiante [email protected] Laboratoire d’Informatique de Paris 6 11 [email protected] Laboratoire d’Informatique de Paris 6 12 RMC et RL : Deux régresseurs linéaires différentes ADL, RMC et RL sur l’exemple jouet ADL ADL, RMC et RL RMC y y RMC x2 x2 RL t x. t x. = +γ O β2 β+ 0 = β0 0 x1 x1 Régression Linéaire au Moindre Carrées Régression Logistique ADL [email protected] Laboratoire d’Informatique de Paris 6 13 [email protected] Les densités gaussiennes avec une même matrice de covariance, vérifient l’hypothèse des modèles logistiques. 14 Analyse Discriminante Multiple RL ou ADL ? Laboratoire d’Informatique de Paris 6 d à c-1 dimension avec c le nombre de classes Généralisation de Fisher w devient une matrice W [ d x (c-1) ] Différent de plusieurs AFD : optimisation globale Les probabilités a posteriori de classes dans les deux cas (RL et ADL) ont la même forme logistique, mais les coefficients pour ces deux modèles sont estimés de façon différents. La régression logistique ne fait pas d’hypothèse sur la densité marginale des points X et trouve les coefficients de p(C / X) en maximisant la forme équivalent de la vraisemblance classifiante, L′c, Avec l’ADL, les paramètres du modèle sont estimées en maximisant la forme complète de la vraisemblance classifiante. Ici, la densité marginale p(X) joue un rôle dans l’estimation de ces paramètres. [email protected] Laboratoire d’Informatique de Paris 6 15 [email protected] Laboratoire d’Informatique de Paris 6 16 Analyse Discriminante Multiple (3) Analyse Discriminante Multiple (2) p à c-1 dimension avec c le nombre de classes Généralisation de Fisher w devient une matrice W [p x (c-1)] Pour une population centrée La matrice de dispersion inter-classe variance des moyennes La matrice de dispersion intra-classe moyenne des variances Critère : Chercher W qui rend stationnaire sous la contrainte 17 Laboratoire d’Informatique de Paris 6 [email protected] [email protected] + : une description de q histoire di xi Documents triés dans l’ordre décroissant de leur score traiter caractère découvrir . . . xl . . . matching mesure lecteur i.e. ∀i, di [email protected] Classe C Collection de documents + 18 documents codés sur un dictionnaire de 32 termes. Les documents sont classés suivant trois catégories : Business Recession (classe A), Tectonics (classe B) et Mental disorder (classe C). Classe B Dictionnaire Ce livre traite dans une large mesure des Hobbits et le lecteur découvrira dans ses pages une bonne part de leur caractères. 18 Classe A Dictionnaire Laboratoire d’Informatique de Paris 6 Exemple Jouet Exemple d’application: Recherche de l’Information q est finie, . : une description de di Laboratoire d’Informatique de Paris 6 19 [email protected] Laboratoire d’Informatique de Paris 6 20 Recherche d’Information avec un codage binaire Tâche de recherche But : Rechercher les documents les plus pertinents par rapport à une requête q et les triés dans l’ordre décroissant de leur pertinence. La requête q = {business, depression} [email protected] 21 Laboratoire d’Informatique de Paris 6 [email protected] Codage insuffisant 3 9 10 3 10 10 1 10 3 10 10 3 3 10 10 10 Laboratoire d’Informatique de Paris 6 22 Codage Insuffisant (2) Codage binaire est insuffisant pour capturer une information de contenue Classe A 3 requête q 1 But : Rechercher les documents les plus pertinents par rapport à une requête q et les triés dans l’ordre décroissant de leur pertinence. La requête q = {business, depression} Classe B Polysémie Classe C Synonymie [email protected] Laboratoire d’Informatique de Paris 6 23 [email protected] Laboratoire d’Informatique de Paris 6 24 Décomposition de la matrice des données en valeurs et vecteurs singuliers Représentation plus riche: Latent Semantic Indexing Le LSI est la décomposition en valeurs singulières d’une matrice terme-document X = U.Σ.V t X t1 t1 d1 c1 d2 c2 t3 t3 d3 t4 t4 Documents V c1 c2 polysémies Termes "Concepts" X≈ d1 d2 Vecteur singulier V des termes d3 Vecteur singulier U des documents Documents Laboratoire d’Informatique de Paris 6 [email protected] t synonymies t2 t2 Termes Σ U Matrice Σ des valeurs singulières 25 Représentation des termes sur la base des 2 premiers vecteurs singuliers droites [email protected] 26 Laboratoire d’Informatique de Paris 6 Représentation des documents sur la base des 2 premiers vecteurs singuliers gauches A2 : buisness, economy, market A6 : buisness, market, price buisness A1 : buisness, depression, tax, unemployment A7 : benefit, compensation, unemployment economy valley bassin C1 : counseling, illness, mental C4 : disturbance, drug, illness C6 : counseling, drug, psychotherapy unemployment treatment volcano recovery illness depression B2 : depression, fault B3 : bassin, drainage, valley B5 : bassin, drainage, volcano [email protected] Laboratoire d’Informatique de Paris 6 27 [email protected] Laboratoire d’Informatique de Paris 6 28 Représentation des documents sur la base des 2 premiers vecteurs propres de Fisher Liste des documents retournés SW est non-singulière, on cherche les (c-1=2) valeurs et vecteurs propres de [email protected] Laboratoire d’Informatique de Paris 6 29 [email protected] Laboratoire d’Informatique de Paris 6 30