Segmentation hiérarchique des cartes topologiques
Mustapha Lebbah,∗∗, Hanane Azzag∗∗
LIM&BIO - UFR (SMBH)- Université Paris 13,
74, rue Marcel Cachin 93017 Bobigny Cedex France
∗∗LIPN - UMR 7030
Université Paris 13 - CNRS
99, av. J-B Clément - F-93430 Villetaneuse
{hanane.azzag, mustapha.lebbah}@lipn.univ-paris13.fr
Résumé. Dans ce papier, nous présentons une nouvelle mesure de similarité
pour la classification des référents de la carte auto-organisatrice qui sera réalisée
à l’aide d’une nouvelle approche de classification hiérarchique. (1) La mesure
de similarité est composée de deux termes : la distance de Ward pondérée et
la distance euclidienne pondérée par la fonction de voisinage sur la carte topo-
logique. (2) Un algorithme à base de fourmis artificielles nommé AntTree sera
utilisé pour segmenter la carte auto-organisatrice. Cet algorithme a l’avantage de
prendre en compte le voisinage entre les référents et de fournir une hiérarchie
des référents avec une complexité proche du nlog(n). La segmentation incluant
la nouvelle mesure est validée sur plusieurs bases de données publiques.
1 Introduction
Le problème de la classification de données est identifié comme une des problématiques ma-
jeures en extraction des connaissances à partir de données. Depuis des décennies, de nom-
breux sous-problèmes ont été identifiés, comme par exemple la sélection des données ou des
variables, la variété des espaces de représentation (numérique, symbolique, etc), l’incrémen-
talité, la nécessité de couvrir des concepts, ou d’obtenir une hiérarchie, etc. La popularité,
la complexité et toutes ces variantes du problème de la classification de données, (Jain et al.
(1999)),ont donné naissance à une multitude de méthodes de résolution. Ces méthodes peuvent
faire appel à des principes heuristiques ou encore mathématiques.
Les méthodes qui nous intéressent dans ce travail, sont celles qui permettent de faire de la
classification non supervisée de données en utilisant les cartes topologiques (appelées aussi
SOM :Self-organizing Map). Celles-ci sont souvent utilisées parce qu’elles sont considérées à
la fois comme outils de visualisation et de partitionnementnon supervisé de différents types de
données (quantitativeset qualitatives). Elles permettent de projeter les données sur des espaces
discrets qui sont généralement en deux dimensions. Le modèle de base, proposé par Kohonen
(Kohonen (2001)), est uniquement dédié aux données numériques. Des extensions et des refor-
mulations du modèle de Kohonen ont été proposées dans la littérature, (Bishop et al. (1998);
Segmentation hiérarchique des cartes topologiques
Lebbah et al. (2007)).
Pour l’apprentissage des cartes topologiques, les critères de qualité sont plus difficiles à dé-
finir; ils s’articulent autour de l’interprétation des regroupements ou des partitions obtenues.
Par conséquent un premier problème se pose : celui de la segmentation (partitionnement) de la
carte. On retrouve dans la littérature plusieurs méthodes ou propositions de segmentation de la
carte qui utilisent des critères de similarité standard qui ne tiennent pas compte du voisinage
introduit par la carte, (Vesanto et Alhoniemi (2000)). Elles se résument, souvent, à l’utilisation
d’un algorithme de regroupement (classification hiérarchique ou les K-moyennes) combiné à
un indice de qualité pour déterminer la partition idéale. Le second problème qui nous intéresse
dans cet article est celui du choix de l’algorithme de segmentation de la carte. Ainsi, nous
avons introduit une nouvelle classification hiérarchique que l’on va appliquer sur les référents
(représentants) de la carte. Cette nouvelle méthode nommée AntTree introduite par (Azzag
et al.) s’inspire du comportement d’auto-assemblage observé chez une population de fourmis
réelles et leurs capacités à s’accrocher entre elles pour construire des structures vivantes.
La suite de notre article est organisée comme suit : dans la section 2, nous présentons les
principes généraux des cartes SOM avec la nouvelle mesure proposée, ainsi que la nouvelle
méthode de classification hiérarchique utilisée pour la segmentation de la carte topologique.
La section 3, quant à elle, est consacrée aux résultats et à l’étude comparative alisée sur des
bases de données numériques. La dernière section rassemble les conclusions faites au cours
des expérimentations et présente des perspectives.
2 Segmentation topologique et hiérarchique
Les cartes auto-organisatrices présentées par Kohonen ont été utilisées pour la classification et
la visualisation des bases de données multidimensionnelles. Une grande variété d’algorithmes
des cartes topologiques est dérivée du premier modèle original proposé par Kohonen. Ces mo-
dèles sont différents les uns des autres, mais partagent la même idée de présenter les données
de grande dimension en une simple relation géométrique sur une topologie réduite.
Dans cette section, nous décrivons la version originale des cartes auto-organisatrices. Ce mo-
dèle consiste en la recherche d’une classification non supervisée d’une base d’apprentissage
A={zi∈ Rd, i = 1..N} l’individu zi= (z1
i, z2
i, ..., zj
i, ...., zd
i)est de dimension d. Ce
modèle classique se présente sous forme d’une carte possédant un ordre topologique de Nc
cellules. Les cellules sont réparties aux nœuds d’un maillage. La prise en compte dans la carte
Cde la notion de proximité impose de définir une relation de voisinage topologique. Ainsi, la
topologie de la carte est définie à l’aide d’un graphe non orienté et la distance δ(c, r)entre
deux cellules cet rétant la longueur du chemin le plus court qui sépare les deux cellules c
et r. Afin de modéliser la notion d’influence d’une cellule rsur une cellule c, qui dépend de
leur proximité, on utilise une fonction noyau K(K ≥ 0et lim
|x|→∞ K(x) = 0). L’influence mu-
tuelle entre deux cellules cet rest donc définie par la fonction K(δ(c, r)). A chaque cellule c
de la grille est associée un vecteur référent wc= (w1
c, w2
c, ..., wj
c, ..., wd
c)de dimension d. Les
phases principales de l’algorithme d’apprentissage sont finies dans la littérature et consistent
Lebbah et al.
à minimiser la fonction coût suivante :
J(φ, W) = X
ziAX
rC
K(δ(φ(zi), r))||ziwr||2(1)
φaffecte chaque observation zà une cellule unique de la carte C. Dans cette expression
||zwr||2représente le carré de la distance euclidienne.
A la fin de l’apprentissage, la carte auto-organisatrice détermine une partition des données
en psous ensembles. Cette partition et les sous-ensembles associés seront notés par P=
{P1,...,Pc,...,Pp}. A chaque sous ensemble Pcon associe un vecteur référent wc∈ Rd
qui sera le représentant ou la "moyenne" de l’ensemble des observations de Pc.
Souvent l’utilisation des cartes topologiques est suivie par une segmentation des cartes ou un
regroupement des référents. Cette tâche, est réalisé à l’aide d’algorithmes de partitionnement
tel que K-moyennes, ou la classification ascendante hiérarchique CAH (Jain et Dubes (1988)).
Le choix des deux sous-ensembles qui vont être regroupés est réalisé à l’aide d’une mesure de
similitude définie entre deux sous-ensembles. Différents critères de similitude sont proposés
dans la littérature, (Jain et Dubes (1988); Ambroise et al. (1998)). Souvent ces critères ne
tiennent pas compte de la topologie ou de l’auto-organisation des référents obtenue avec la
carte topologique. La mesure de similitude la plus connue est celle du critère de Ward définie
comme suit :
Indicew=ncnr
nc+nr||wcwr||2(2)
tel que ncet nrindiquent le nombre d’observations affectées pour le sous-ensemble Pcet
Pr.
En considère deux partitions : Pt1comme la partition avant regroupement des deux sous-
ensembles Pcet Prassociés aux deux référents cet r, et Ptla partition obtenue en regroupant
les sous ensembles Pcet Pr. On peut montrer que la différence entre l’inertie des deux parti-
tions est égale au critère de regroupementde Ward (2). Ainsi à chaque étape de la classification
on calcule une matrice de similarité associée à la nouvelle partition. Par conséquent, à chaque
étape de l’algorithme, on choisit une nouvelle partition qui limite l’augmentation de l’inertie
intra-classe. Notons que cette propriété ne garantit pas l’optimisation globale du critère. L’al-
gorithme peut être décrit en 5 étapes :
1. Initialiser la matrice de similarité avec la partition obtenue avec la carte.
2. Trouver les deux sous ensembles les plus proches selon le critère de Ward.
3. Regrouper les deux sous ensembles Pcet Pren un seul sous ensemble.
4. Mettre à jour la matrice de similarité de la nouvelle partition.
5. Répéter 2
Nous rappelons que la classification hiérarchique ou tout autre méthode de segmentation des
cartes topologiques sont couplées à un indice de qualité qui permet de choisir la taille de la
Segmentation hiérarchique des cartes topologiques
partition optimale. Afin d’optimiser l’algorithme de segmentation de la carte, nous proposons
dans ce papier deux modifications. La première consiste à utiliser un algorithme de classifi-
cation hiérarchique qui supprime l’étape 4 et fournit automatiquement la taille de la partition
"idéale". Ceci se résume à utiliser un algorithme de classification hiérarchique qui utilise une
seule et unique matrice de similarité, qui est celle de la partition à l’instant t= 0 (P0). Cet
algorithme sera détaillé par la suite dans la section 2.1. Notre deuxième proposition consiste à
modifier la mesure de similarité de regroupement, afin de prendre en compte le voisinage de la
topologie fournie par la carte.
Le critère de Ward mesure la perte d’inertie après chaque fusion de deux sous ensembles, il
est donc nécessaire de considérer la modification de la topologie de la carte après fusion en
pondérant l’indice de Ward par un paramètre quantifiant ce changement. Nous proposons de
quantifier le changement topologique par une pondération du critère de Ward avec une mesure
qui prend en compte la nouvelle structure de la carte, cette dernière est définie comme suit :
X
uC
K(δ((c, r), u))) telle que δ((c, r), u) = min{δ(c, u), δ(r, u)}
Cette pondération permet donc de quantifier ce changement topologique de la carte. Afin de
de prendre en compte la proximité des référents sur la carte, nous proposons de soustraire une
quantité à cette mesure de façon à diminuer la perte d’inertie mesurée par le critère de Ward,
selon la proximité des sous-ensembles sur la carte topologique. Finalement, la nouvelle mesure
devient :
IndiceN eighW= X
uC
K(δ((c, r), u)))!ncnr
nc+nr
||wcwr||2
K(δ(c, r))(nc+nr)||wcwr||2(3)
Cette mesure heuristique est constituée de deux termes. Le premier terme correspond à la perte
d’inertie des observations après fusion des deux sous ensembles Pcet Pr. le deuxième terme
permet de rapprocher les sous-ensembles correspondants à deux référents voisins sur la carte,
afin de conserver l’ordre topologique entre les différentes partitions. En effet, si cet rsont
voisins sur la carte, la valeur de δ(c, r)sera alors basse et dans ce cas celle de K(δ(c, r))
sera élevé; le second terme a donc comme effet de réduire davantage le premier terme. Il est
évident que pour un voisinage nul, notre mesure se réduit à calculer le critère de Ward. Il est
donc possible de dire que notre mesure permet d’obtenir une solution régularisée du critère de
Ward : la régularisation étant obtenue grâce à la contrainte d’ordre topologique introduit dans
notre proposition de mesure.
Finalement l’utilisation de notre mesure permet de définir une matrice de similarité qui tient
compte à la fois de la perte d’inertie et de la topologie de la carte. Pour traiter cette matrice
nous allons présenter dans la section suivante l’algorithme de classification hiérarchique basé
sur les fourmis artificielles.
Lebbah et al.
2.1 Classification hiérarchique
Pour segmenter la carte nous avons utilisé une approche biomimétique inspirée du compor-
tement d’auto-assemblage observé chez les fourmis réelles. Ces dernières construisent des
structures vivantes en se connectant progressivement entre elles, (Anderson et al. (2002)).
Le modèle développé utilise des règles comportementales afin de construire des heuristiques
pour la classification non supervisée hiérarchique. Dans notre modèle chaque fourmi artifi-
cielle représente une donnée zà classer. Ces fourmis artificielles vont construire de manière
similaire un arbre en appliquant certaines règles où les déplacements et les assemblages des
données sur cet arbre dépendent de leurs similarités.
Le principe d’AntTree est le suivant : chaque donnée (fourmi) à classer zi,i[1, N ](Nest
le nombre de données initiales) représente un nœud de l’arbre à assembler.
fpos
f0
fi
Fourmi
en déplacement
Fourmi
connectée
FIG. 1 Construction de l’arbre par des fourmis : les fourmis qui sont en déplacement sont représen-
tées en gris et les fourmis connectées en blanc.
Initialement toutes les fourmis artificielles sont positionnées sur un support noté f0(voir fi-
gure 1). A chaque itération, une donnée ziest choisie dans la liste des données triée au départ.
On notera par la suite par fichaque fourmi représentant une donnée zià classer dans l’arbre.
Cette fourmi va chercher alors à se connecter sur sa position courante, sur le support (f0) ou
sur une autre fourmi (donnée) déjà connectée (noté fpos). Cette opération ne peut aboutir que
dans le cas où elle est suffisamment dissimilaire à f+(la fourmi connectée au support f0ou à
fpos et dont la donnée est la plus similaire à zi). Dans le cas contraire, la fourmi fiassocié à la
donnée zise déplacera de manière déterministe dans l’arbre suivant le chemin le plus similaire
indiqué par f+. Le seuil permettant de prendre ces décisions ne va dépendre que du voisinage
local. Pour étiqueter les données nous allons ensuite considérer que chaque sous arbre va re-
présenter une classe trouvée. Dans (Azzag et al.) l’auteur détaille de manière plus complète les
règles comportementales définissant les différents algorithmes de cette approche.
Notons qu’AntTree a l’avantage d’avoir une complexité proche du nlog(n). Une étude dé-
taillée a été réalisé dans (Azzag et al.), elle confirme que par rapport à d’autres algorithmes
en n2les temps nécessaires par AntTree peuvent être jusqu’à 1000 fois inférieur à ceux de la
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !