LES CARTES TOPOLOGIQUES Quantification vectorielle D espace des données A ensemble d’apprentissage A ⊂ D ⊂ ℜn A = {z i ,i = 1, .., N} Réduire l’information de D: • En la résumant par un ensemble de p référents W = {wc ,c = 1,.., p} • En réalisant une partition de D en p sous-ensembles par l ’intermédiaire d ’une fonction d’affectation χ : χ : D → {1,2,..., p} { P = P1 , P2 ,.., Pp } Pc = {z ∈D / χ (z) = c} Différentes Méthode de Quantification Vectorielle Différentes détermination de W et χ • Algorithme des k-moyennes • Cartes topologiques, algorithme de Kohonen (SOM) • Cartes topologiques probabiliste (PRSOM) Chaque méthode correspond à la minimisation d’une fonction de coût spécifique Méthode des k-moyennes • Minimiser la somme des inerties locales par rapport à χ et W 2 I(W, χ ) = ∑ zi − w χ (z i ) = ∑ ∑ zi − w c 2 c zi ∈Pc ∩A zi ∑ Ic = ∑ ∑ z i − w c c 2 c z i ∈A χ (z i )=c • L’inertie Ic représente l’erreur de quantification obtenue si l’on remplace chaque observations de Pc par son référent wc • Minimisation itérative qui fixe alternativement la partition (χ )puis minimise l’inertie (W ) Phase d’affectation: Pour un ensemble W de référents fixe, la minimisation de I par rapport à χ s’obtient en affectant chaque observation z au référent wc selon la nouvelle fonction d’affectation χ χ (z) =arg min z − w r 2 (1) r Phase de minimisation: La partition χ est fixée. La fonction I(W, χ) est quadratique et convexe par rapport à W. Le minimum global est atteint pour p ∂I ∂I ∂I ∂I = , ,..., =0 ∂W ∂w1 ∂w 2 ∂w p ∑z ∀c ∑z i ∈Pc (z i − w c ) = 0 wc = i z i ∈ Pc ∩ A nc (2) Algorithme des k-moyennes 1. Phase d’initiation : t=0, choisir les p référents initiaux (en général d’une manière aléatoire), fixer le nombre maximal d’itération Niter. 2. Etape itérative : à l’itération t, l’ensemble des référents Wt-1 de l’étape précédente est connu : Phase d’affectation : mise à jour de la fonction d’affectation χt, associée à χt, Wt-1 : on affecte chaque observation z au référent le plus proche (1). Phase de minimisation : calcul des nouveaux référents Wt , associés à en appliquant l’équation (2). 3. Répéter l’étape itérative jusqu’à ce que l’on atteint k> Niter itérations ou une stabilisation de la fonction I. Sensibilité aux conditions initiales Comportement de l’algorithme des k-moyennes en fonction des densités sous-jacente (a) Données simulées selon deux distributions gaussiennes de matrice de variance-covariance différentes (b) référents et partition obtenue à la convergence avec deux référents (c) avec cinq référents; K-Moyennes et Modèle de mélange Résultat : L’algorithme des K-moyennes fait les hypothèses suivantes sur les données de l’ensemble d’apprentissage : • Les observations sont indépendantes • Chaque observation est générée par un mélange de p gaussiennes sphériques avec des probabilité à priori équiprobables : f (z,W ,σ ) = 1 p p∑ k=1 f k (z) Où fk suit la loi normale N(wk,σk) L’algorithme des k-moyennes estiment les paramètres W et σ em minimisant la vraisemblance classifiante : 1 N N p(z1,z2 ,...,zN ; χ ) = Π f χ (zi ) (zi ) p i=1 Cartes topologique • • • L’ensemble des indices est maintenant ordonné. Il s’agit d’un espace discret (C ) de faible dimension à des fins de visualisation (1-D, 2-D). C ensemble de neurones connectés par une structure de graphe non-orienté muni d’une distance discrète δ sur C et d’une structure de voisinage: Voisinage d ’ordre d δ(c,r)= + court chemin sur le graphe δ( Quantification par carte • Chaque neurone c de C est associé à un vecteur référent wc de l’espace des données D • L’apprentissage approxime la densité sous- jacente des données tout en cherchant à respecter une contrainte de conservation de la topologie de la carte C • Deux neurones c et r « voisins » par rapport à la topologie discrète de la carte C sont associés à deux vecteurs référents wc et wr proches dans l’espace des données D. Les indices des référents sont ordonnée par la topologie NOTION DE CONSERVATION DE LA TOPOLOGIE Apprentissage Apprentissage de la carte = Minimisation d’une fonction de coût La valeur de T détermine la taille du voisinage (T=0 Algorithme des K-moyennes) Le seuil α gère l’ordre des valeurs significatives prises en compte par le calcul. Chaque observation z calcule une distance généralisée à l’ensemble des neurones de la carte par l'intermédiaire de la fonction KT: Optimisation non adaptative des cartes topologiques Minimisation itérative de Jsom (χ, w) pour un paramètre T fixé: Phase d’affectation: L’ensemble W des référents est fixé, la minimisation s’obtient en affectant chaque observation z au référent wc selon la nouvelle fonction d’affectation χΤ (3) Phase de minimisation: La partition χΤ est fixée. La fonction Jsom (χ, w) est minimisée par rapport à l’ensemble des référents W. La fonction étant convexe par rapport aux paramètres le minimum global est atteint pour (4) Zr représente la somme de toutes les observations affectées au neurone r nr le nombre de ces observations Algorithme des cartes topologiques : T fixé 1. Phase d’initiation : t=0, choisir la structure et la taille p de la carte, choisir les référents initiaux (en général d’une manière aléatoire), le nombre maximal d’itération Niter. 2. Etape itérative t. L’ensemble des référents Wt-1 de l’étape précédente est connu : Phase d’affectation : mise à jour de la fonction d’affectation χt associée à Wt-1 : on affecte chaque observation z au référent défini à partir de la relation (3). Phase de minimisation : calcul des nouveaux référents Wt, associés à χt, en appliquant l’équation (4). 3. Répéter l’étape itérative jusqu’à ce que l’on atteint k> Niter itérations ou une stabilisation de la fonction Carte topologique obtenue à la convergence pour T fixé de haut en bas et de gauche à droite T=10, T=5; T=3; T=1 L’ordre induit par la carte sur les référents permet de visualiser l ’ordre.topologique Algorithme des cartes topologiques • La minimisation à T fixée est répétée un certain nombre de fois en faisant décroître la valeur de T. • L’ordre apparaît pour les grandes valeurs de T, la carte se déploie alors pour recouvrir les données et faire diminuer la variance intra. Les paramètres déterminants de la minimisation sont • L’intervalle de variation de T, la valeur initiale Tmax et la valeur finale Tmin • Le nombre de fois où l’étape itérative est effectuée • La manière dont le paramètre décroit dans l’intervalle [Tmax, Tmin] Une mauvaise gestion de la décroissance de T peut introduire des anomalies dans l’ordre Evolution de l’apprentissage: données simulées 4 gaussiennes Carte 1-D 50 neurones après 20, 200, 1000 itérations Carte 2-D 10*10 neurones après 500, 1000, 5000 itérations Visualisation des différents sous-ensembles Les frontières dessinées par les neurones n’ayant rien captés permettent de distinguer grossièrement les différents groupes. Dans l’exemple les observations ont été découpées en deux sous ensembles regroupant à chaque fois deux gaussiennes. Ordre Topologique Induit l’ordre sur la carte, deux neurones proches doivent avoir des référents proches Fonction de coût des k-moyennes pondéré par KT(0) T petit:carte topologique et k-moyennes coincident Déroulement de l’algorithme Première phase valeur de T grande, minimisation du premier terme de J L’ordre se met en place Deuxième phase valeur de T petite, minimisation du second terme de J La variance intra est minimisée, les référents deviennent les centres de gravité de la partition Interprétation des cartes topologique CARTE TOPOLOGIQUE = K-MOYENNES SOUS CONTRAINTE D’ORDRE ou K-MOYENNES REGULARISE Comparaison: algorithme des k-moyennes, carte topologique Cartes Probabilistes Approximation de la densité des observations par un mélange de mélange de gaussienne: Paramètres à estimer durant l’apprentissage On suppose par la suite que Σc = σ c I Vraisemblance de l’ensemble d’apprentissage Neurone c2 ----> Mélange local de densité de gaussiennes que l’on choisit sphériques Σ c = σ c I Normalisation T petit --> mélange local (T=0 k-moyennes) Hypothèses: 1. Les observations sont indépendantes 2. Chaque observation z est engendrée par le neurone χ(z) VRAISEMBLANCE CLASSIFIANTE Ensemble des écarts types Maximisation de la vraisemblance classifiante Fonction de coût: opposé de la vraisemblance classifiante: T fixé On note par W t-1, σt-1 et χt-1 les paramètres calculée à l’itéraruion t-1. Phase d’affectation: Les référents (W t-1) et les écarts types (σt-1 ={σt-1c}) sont fixés. E(W t-1, σt-1 , χ ) est minimisé en affectant chaque observation z au référent wc selon la nouvelle fonction d’affectation χt Χt(z) = arg maxc2 pc2(z) (5) Phase de minimisation: La partition χt est fixée. Les nouvelles valeurs de W et σ, sont calculées en annulant les dérivées partielles de E(W, σ, χt) Formules de mise à jour (6) (7) Algorithme PRSOM (5) (6,7). (6,7) (5) Comme pour l’algorithme de Kohonen, la valeur du paramètre T décroît durant l’apprentissage pour permettre la mise en ordre de la topologie. La partition finale est définie à partir de chaque neurone { } Pc = z / χ Niter (z) = c Classification et carte topologique Base étiquetée statistiquement représentative: 1. Affectation à l’aide de la fonction χ 2. Utilisation du vote majoritaire sur les différents sous-ensemble de la partition 3. Etiquetage du neurone Pas de connaissance experte Sous l’hypothèse d’un bon ordre topologique Il est très probable que deux neurones voisins représentent des données de même classe. Une Classification Ascendante hiérarchique Permet de les retrouver Classification hiérarchique PRSOM et Classification Après labellisation, on utilise le calcul des probabilités pour réaliser la classification: une classe li est représentée par l’ensemble des neurones ayant son label. Ensemble des neurones de label li Calculé par PRSOM Couleur de l ’océan. Classification en 4 classes (carte PRSOM 20*20) Calcul des probabilités Les pixel rouges sont ceux dont la probabilité d’appartenance à la classe la plus probable est inférieure à 0.75. Ils sont peu nombreux et se situent à la frontière des différents aérosols PRSOM et Classification floue Un neurone n’est pas le représentant d’une classe. On estime les probabilités a-posteriori d’appartenance à une classe en utilisant toute l’information labellisée captée par tous les neurones de la carte. p(li / z) = ∑ p(li /c1 ) p(c1 / z) c1 ∈C1 nombre d’exemples de classe li captés par c1 p(li / z) = nombre d’exemples labelisés captés par c1 ncli1 p(c1 / z) = ∑ p(c1 , c2 / z) c2 ∈C2 nc1 p(c2 )K T (δ (c1 , c2 )) p(z / c1 ) p(c1 , c2 / z) = ∑ p(r) p(z / r) r∈C2