les cartes topologiques

LES CARTES TOPOLOGIQUES
Quantification vectorielle
D espace des données
A ensemble d’apprentissage
A ⊂ D ⊂ ℜn
A = {z i ,i = 1, .., N}
Réduire l’information de D:
• En la résumant par un ensemble de p référents
W = {wc ,c = 1,.., p}
• En réalisant une partition de D en p
sous-ensembles par l ’intermédiaire d ’une
fonction d’affectation χ :
χ : D → {1,2,..., p}
{
P = P1 , P2 ,.., Pp
}
Pc = {z ∈D / χ (z) = c}
Différentes Méthode de Quantification Vectorielle
Différentes détermination de W et χ
•
Algorithme des k-moyennes
•
Cartes topologiques, algorithme de Kohonen (SOM)
•
Cartes topologiques probabiliste (PRSOM)
Chaque méthode correspond à la minimisation d’une fonction de
coût spécifique
Méthode des k-moyennes
• Minimiser la somme des inerties locales par rapport à χ et W
2
I(W, χ ) = ∑ zi − w χ (z i ) = ∑ ∑ zi − w c
2
c zi ∈Pc ∩A
zi
∑ Ic = ∑ ∑ z i − w c
c
2
c z i ∈A
χ (z i )=c
• L’inertie Ic représente l’erreur de quantification obtenue si l’on remplace
chaque observations de Pc par son référent wc
• Minimisation itérative qui fixe alternativement la partition (χ )puis
minimise l’inertie (W )
Phase d’affectation:
Pour un ensemble W de référents fixe, la minimisation de I par
rapport à χ s’obtient en affectant chaque observation z au référent
wc selon la nouvelle fonction d’affectation χ
χ (z) =arg min z − w r
2
(1)
r
Phase de minimisation:
La partition χ est fixée. La fonction I(W, χ) est quadratique et
convexe par rapport à W. Le minimum global est atteint pour
p


∂I  ∂I ∂I
∂I 
=
,
,...,
=0
∂W  ∂w1 ∂w 2
∂w p 
∑z
∀c ∑z i ∈Pc (z i − w c ) = 0
wc =
i
z i ∈ Pc ∩ A
nc
(2)
Algorithme des k-moyennes
1. Phase d’initiation : t=0, choisir les p référents initiaux (en
général d’une manière aléatoire), fixer le nombre maximal d’itération
Niter.
2. Etape itérative : à l’itération t, l’ensemble des référents Wt-1 de
l’étape précédente est connu :
Phase d’affectation : mise à jour de la fonction d’affectation χt,
associée à χt, Wt-1 : on affecte chaque observation z au référent le
plus proche (1).
Phase de minimisation : calcul des nouveaux référents Wt , associés à
en appliquant l’équation (2).
3. Répéter l’étape itérative jusqu’à ce que l’on atteint k> Niter
itérations ou une stabilisation de la fonction I.
Sensibilité aux
conditions initiales
Comportement de l’algorithme des k-moyennes en
fonction des densités sous-jacente
(a) Données simulées selon deux distributions
gaussiennes de matrice de variance-covariance
différentes
(b) référents et partition obtenue à la convergence
avec deux référents
(c) avec cinq référents;
K-Moyennes et Modèle de mélange
Résultat :
L’algorithme des K-moyennes fait les hypothèses suivantes sur les données de l’ensemble
d’apprentissage :
• Les observations sont indépendantes
• Chaque observation est générée par un mélange de p gaussiennes sphériques avec
des probabilité à priori équiprobables :
f (z,W ,σ ) = 1
p
p∑
k=1
f k (z)
Où fk suit la loi normale N(wk,σk)
L’algorithme des k-moyennes estiment les paramètres W et σ em
minimisant la vraisemblance classifiante :
 1 N N
p(z1,z2 ,...,zN ; χ ) =   Π f χ (zi ) (zi )
 p  i=1
Cartes topologique
•
•
•
L’ensemble des indices est maintenant ordonné.
Il s’agit d’un espace discret (C ) de faible dimension à des fins
de visualisation (1-D, 2-D).
C ensemble de neurones connectés par une structure de graphe
non-orienté muni d’une distance discrète δ sur C et d’une
structure de voisinage:
Voisinage d ’ordre d
δ(c,r)=
+ court chemin sur le graphe
δ(
Quantification par carte
•
Chaque neurone c de C est associé à
un vecteur référent wc de l’espace
des données D
•
L’apprentissage approxime la densité
sous- jacente des données tout en
cherchant à respecter une contrainte
de conservation de la topologie de la
carte C
•
Deux neurones c et r « voisins » par
rapport à la topologie discrète de la
carte C sont associés à deux
vecteurs référents wc et wr proches
dans l’espace des données D.
Les indices des référents sont ordonnée
par la topologie
NOTION DE CONSERVATION DE
LA TOPOLOGIE
Apprentissage
Apprentissage de la carte = Minimisation d’une fonction de coût
La valeur de T détermine la taille du voisinage
(T=0 Algorithme des K-moyennes)
Le seuil α gère l’ordre des valeurs significatives prises en compte par le
calcul.
Chaque observation z calcule une distance généralisée à l’ensemble des
neurones de la carte par l'intermédiaire de la fonction KT:
Optimisation non adaptative des cartes topologiques
Minimisation itérative de Jsom (χ, w) pour un paramètre T fixé:
Phase d’affectation:
L’ensemble W des référents est fixé, la minimisation s’obtient en
affectant chaque observation z au référent wc selon la nouvelle
fonction d’affectation χΤ
(3)
Phase de minimisation:
La partition χΤ est fixée. La fonction Jsom (χ, w) est minimisée par rapport
à l’ensemble des référents W. La fonction étant convexe par rapport
aux paramètres le minimum global est atteint pour
(4)
Zr représente la somme de toutes les
observations affectées au neurone r
nr le nombre de ces observations
Algorithme des cartes topologiques : T fixé
1. Phase d’initiation : t=0, choisir la structure et la taille p de la
carte, choisir les référents initiaux (en général d’une manière
aléatoire), le nombre maximal d’itération Niter.
2. Etape itérative t. L’ensemble des référents Wt-1 de l’étape
précédente est connu :
Phase d’affectation : mise à jour de la fonction d’affectation χt
associée à Wt-1 : on affecte chaque observation z au référent
défini à partir de la relation (3).
Phase de minimisation : calcul des nouveaux référents Wt, associés
à χt, en appliquant l’équation (4).
3. Répéter l’étape itérative jusqu’à ce que l’on atteint k> Niter
itérations ou une stabilisation de la fonction
Carte topologique obtenue à la convergence pour T fixé
de haut en bas et de gauche à droite T=10, T=5; T=3; T=1
L’ordre induit par la carte sur les référents permet de visualiser
l ’ordre.topologique
Algorithme des cartes topologiques
• La minimisation à T fixée est répétée un certain nombre de fois en
faisant décroître la valeur de T.
• L’ordre apparaît pour les grandes valeurs de T, la carte se déploie
alors pour recouvrir les données et faire diminuer la variance intra.
Les paramètres déterminants de la minimisation sont
•
L’intervalle de variation de T, la valeur
initiale Tmax et la valeur finale Tmin
•
Le nombre de fois où l’étape itérative est
effectuée
•
La manière dont le paramètre décroit
dans l’intervalle [Tmax, Tmin]
Une mauvaise gestion de la
décroissance de T peut
introduire des anomalies dans
l’ordre
Evolution de l’apprentissage: données simulées 4 gaussiennes
Carte 1-D 50 neurones après 20, 200, 1000 itérations
Carte 2-D 10*10 neurones après 500, 1000, 5000 itérations
Visualisation des différents sous-ensembles
Les frontières dessinées par les
neurones n’ayant rien captés
permettent de distinguer
grossièrement les différents
groupes.
Dans l’exemple les observations
ont été découpées en deux sous
ensembles regroupant à chaque
fois deux gaussiennes.
Ordre Topologique
Induit l’ordre sur la carte, deux neurones
proches doivent avoir des référents proches
Fonction de coût des k-moyennes pondéré par KT(0)
T petit:carte topologique et k-moyennes coincident
Déroulement de l’algorithme
Première phase valeur de T
grande, minimisation du
premier terme de J
L’ordre se met en place
Deuxième phase valeur de T
petite, minimisation du second
terme de J
La variance intra est minimisée,
les référents deviennent les
centres de gravité de la
partition
Interprétation des cartes topologique
CARTE TOPOLOGIQUE =
K-MOYENNES SOUS CONTRAINTE D’ORDRE
ou K-MOYENNES REGULARISE
Comparaison: algorithme des
k-moyennes, carte topologique
Cartes Probabilistes
Approximation de la densité des
observations par un mélange de mélange
de gaussienne:
Paramètres à estimer durant l’apprentissage
On suppose par la suite que
Σc = σ c I
Vraisemblance de l’ensemble d’apprentissage
Neurone c2 ----> Mélange local de densité de gaussiennes que l’on
choisit sphériques Σ c = σ c I
Normalisation
T petit --> mélange local (T=0 k-moyennes)
Hypothèses:
1.
Les observations sont indépendantes
2.
Chaque observation z est engendrée par le neurone χ(z)
VRAISEMBLANCE
CLASSIFIANTE
Ensemble des écarts types
Maximisation de la vraisemblance classifiante
Fonction de coût: opposé de la vraisemblance classifiante: T fixé
On note par W t-1, σt-1 et χt-1 les paramètres calculée à l’itéraruion t-1.
Phase d’affectation:
Les référents (W t-1) et les écarts types (σt-1 ={σt-1c}) sont fixés. E(W t-1, σt-1 , χ )
est minimisé en affectant chaque observation z au référent wc selon la nouvelle
fonction d’affectation χt
Χt(z) = arg maxc2 pc2(z)
(5)
Phase de minimisation:
La partition χt est fixée. Les nouvelles valeurs de W et σ, sont calculées en
annulant les dérivées partielles de E(W, σ, χt)
Formules de mise à jour
(6)
(7)
Algorithme PRSOM
(5)
(6,7).
(6,7)
(5)
Comme pour l’algorithme de Kohonen, la valeur du paramètre T décroît
durant l’apprentissage pour permettre la mise en ordre de la topologie.
La partition finale est définie à partir de chaque neurone
{
}
Pc = z / χ Niter (z) = c
Classification et carte topologique
Base étiquetée statistiquement
représentative:
1. Affectation à l’aide de la fonction χ
2. Utilisation du vote majoritaire sur
les différents sous-ensemble de la
partition
3. Etiquetage du neurone
Pas de connaissance experte
Sous l’hypothèse d’un bon ordre topologique
Il est très probable que deux neurones voisins
représentent des données de même classe.
Une Classification Ascendante hiérarchique
Permet de les retrouver
Classification hiérarchique
PRSOM et Classification
Après labellisation, on utilise le calcul des probabilités pour réaliser la
classification: une classe li est représentée par l’ensemble des neurones
ayant son label.
Ensemble des
neurones de
label li
Calculé par
PRSOM
Couleur de l ’océan.
Classification en 4 classes (carte PRSOM 20*20)
Calcul des probabilités
Les pixel rouges sont ceux dont la
probabilité d’appartenance à la
classe la plus probable est
inférieure à 0.75. Ils sont peu
nombreux et se situent à la
frontière des différents aérosols
PRSOM et Classification floue
Un neurone n’est pas le représentant d’une classe. On estime les
probabilités a-posteriori d’appartenance à une classe en utilisant toute
l’information labellisée captée par tous les neurones de la carte.
p(li / z) = ∑ p(li /c1 ) p(c1 / z)
c1 ∈C1
nombre d’exemples
de classe li captés
par c1
p(li / z) =
nombre d’exemples
labelisés captés par c1
ncli1
p(c1 / z) = ∑ p(c1 , c2 / z)
c2 ∈C2
nc1
p(c2 )K T (δ (c1 , c2 )) p(z / c1 )
p(c1 , c2 / z) =
∑ p(r) p(z / r)
r∈C2