Classification topographique à deux niveaux
simultanés à base de modes de densité ?
Guénaël CABANES et Younès BENNANI
LIPN-CNRS, UMR 7030, University of Paris 13
99, Avenue J-B. Clément – 93430 Villetaneuse - FRANCE
{cabanes, younes}@lipn.univ-paris13.fr
Résumé :
Une des difficultés rencontrées en classification non supervisée, aussi connue
comme le “problème de sélection de modèle”, est de déterminer un nombre ap-
proprié de groupes. Sans connaissances a priori il n’y a pas de moyen simple pour
déterminer ce nombre. Nous proposons dans cet article un nouvel algorithme
de classification non supervisée à deux niveaux, appelé DS2L-SOM (Density-
based Simultaneous Two-Level - Self Organizing Map). Cet algorithme effectue
simultanément une réduction de dimensions et une classificassion automatique
des données. Cette approche utilise à la fois des informations sur la distance et
la densité des données, ce qui lui permet de détecter automatiquement le nombre
de groupes, i.e. aucune hypothèse a priori sur le nombre de groupes n’est exi-
gée. Le principal avantage de l’algorithme proposé, comparé aux méthodes clas-
siques de classification, est qu’il est capable d’identifier des groupes de formes
non convexes et même des groupes qui se superposent en partie. La validation ex-
périmentale de cet algorithme sur un ensemble de problèmes fondamentaux pour
la classification montre sa supériorité sur les méthodes standards de classification.
Mots-clés : Classification non supervisée, clustering, cartes auto-organisatrices
SOM, modes de densité, sélection de modèle.
1 Introduction
La classification non supervisée (ou clustering) est un outil important en analyse ex-
ploratoire de données non étiquetées, mais un problème extrêmement difficile. Sans
connaissances a priori sur la structure d’une base de données, seule la classification non
supervisée permet de détecter automatiquement la présence de sous-groupes pertinents
(ou clusters). La classification non supervisée est un procédé de regroupement qui peut
être défini comme une tâche de partitionnement d’un ensemble d’items en un ensemble
de sous-ensembles mutuellement disjoints. Un groupe peut être défini comme un en-
semble de données similaires entre elles et peu similaires avec les données appartenant
?Ce travail a été soutenu en partie par le projet "Sillages”, financé par l’ANR (Agence Nationale de la
Recherche).
CAp 2008
à un autre groupe (homogénéité interne et séparation externe). Les groupes peuvent
aussi être décrits comme des régions connectées d’un espace multidimensionnel conte-
nant une relative haute densité de points, séparés d’autres telles régions par une zone
contenant une densité relativement basse de points. La détection de ces regroupements
joue un rôle indispensable pour la compréhension de phénomènes variés décrits par un
ensemble d’observations.
Il existe de nombreuses méthodes de classification non supervisée (Jain & Dubes,
1988). Même une courte liste d’algorithmes de classification non supervisée bien con-
nus peut engendrer plusieurs taxonomies. De telles taxonomies sont d’habitude cons-
truites en considérant : (i) la représentation des données, par exemple matrice de don-
nées ou matrice de similarité, ou type de données, structures de données par exemple
binaires, catégoriques, continues, ou structurées en séquences, arbres, graphes etc, (ii)
la procédure de production des groupes, par exemple une division ou une hiérarchie
de divisions, (iii) direction de la classification, par exemple agglomérative ou divisive.
Les approches les plus classiques sont les méthodes hiérarchiques et les méthodes par-
titives. Les méthodes de classification hiérarchiques agglomératives (CAH) utilisent
un arbre hiérarchique (dendrogramme) construit à partir des ensembles à classifier, les
nœuds de l’arbre issus d’un même parent formant un groupe homogène (Ward, 1963).
Au contraire, les méthodes partitives regroupent des données sans utiliser de structure
hiérarchique.
Une autre famille d’algorithmes de classification non supervisée dite "classification
à deux niveaux" procède en deux phases pour identifier les groupes dans une base de
données. Dans la première phase du processus, l’algorithme estime des référents re-
présentant des micro-groupes (micro-clusters). Dans la deuxième phase, les partitions
associées à chaque référent sont utilisées pour former la classification finale des don-
nées en utilisant une méthode de classification traditionnelle. Dans cette famille d’al-
gorithmes, on trouve l’utilisation de la carte auto-organisatrice ou Self Organizing Map
(SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première étape d’une
classification à deux niveaux pour l’estimation des micro-clusters. Une SOM est un
algorithme neuro-inspiré qui, par un processus non-supervisé compétitif, est capable
de représenter des données de grandes dimensions par un ensemble de prototypes (ou
référents) contraints de conserver une topologie de faible dimension (deux ou trois le
plus souvent). Cet algorithme d’apprentissage non supervisé est une technique non li-
néaire très populaire pour la réduction de dimensions et la visualisation des données.
Lors de la deuxième étape (niveau 2), la détection des regroupements est en général
obtenue en utilisant des techniques de classification classiques telles que K-Moyennes
ou des méthodes hiérarchiques, de façon à obtenir des regroupements de prototypes qui
représentent la partition finale des données.
Cependant, le déroulement séquentiel des deux niveaux s’accompagne inévitable-
ment d’une perte d’information sur la structure des données. L’objectif de cet article est
donc de proposer une méthode de classification à deux niveaux simultanés, qui s’ap-
puie sur l’apprentissage d’une SOM tout en conservant le maximum d’information sur
la structure des données. Pour cela nous proposons de détecter la structure des données
pendant l’apprentissage de la SOM. Ainsi l’estimation des référents (représentants des
micro-clusters) et leur regroupement se font simultanément donnant ainsi une partition
Classification à base de modes de densité
optimisée des données.
Nous avons choisi ici une approche basée sur la distance et la détection des modes de
densités (Sbai, 1999), s’appuyant sur le fait qu’un regroupement de données peut être
défini comme une région de l’espace de représentation localement dense en données,
entourée par une région de faible densité (Ester et al., 1996; Yue et al., 2004; Ultsch,
2005; Beaton & Valora, 2007; Ocsa et al., 2007; Pamudurthy et al., 2007). Cette ap-
proche est particulièrement efficace lorsque les groupes se touchent ou en présence de
bruit. Elle est aussi efficace pour la détection des groupes non convexes. De plus, la
méthode proposée regroupe automatiquement les données, c’est-à-dire que le nombre
de groupes est déterminé automatiquement pendant le processus d’apprentissage, au-
cune hypothèse a priori sur le nombre de groupes n’est exigée. Cette approche a été
évaluée sur un jeu de problèmes fondamentaux représentant différentes difficultés pour
la classification et montre d’excellents résultats comparé aux approches classiques.
Le reste de cet article est organisé comme suit. La Section 2 présente l’algorithme de
classification DS2L-SOM (Density-based Simultaneous Two-Level - SOM). La Sec-
tion 3 décrit les bases de données utilisées pour la validation ainsi que le protocole
expérimental. Dans la section 4 nous présentons les résultats de la validation et leur
interprétation. Une conclusion et des perspectives sont données dans la section 5.
2 Algorithme de classification à deux niveaux simulta-
nés basé sur la densité
Dans un espace de grande dimension les données peuvent être fortement dispersées,
ce qui rend difficile pour un algorithme de classification la recherche de structures dans
les données. En effet, plus la dimension de l’espace de représentation est importante,
plus les données sont dispersées dans cet espace. Les variations de densité et distances
dans cet espace, pourtant essentielles pour la détection de groupes homogènes dans
les données, deviennent alors de moins en moins significatives. De nombreuses ap-
proches ont été proposées pour résoudre des problèmes de classification à deux niveaux
(Aupetit, 2005; Bohez, 1998; Hussin et al., 2004; Ultsch, 2005; Guérif & Bennani,
2006; Korkmaz, 2006). Les approches basées sur l’apprentissage d’une carte auto-
organisatrice sont particulièrement efficaces du fait de la vitesse d’apprentissage de
SOM, de ses performances en réduction de dimensions non linéaire et la visualisation
des résultats de la classification (Hussin et al., 2004; Ultsch, 2005; Guérif & Bennani,
2006).
Bien que les méthodes à deux niveaux soient plus intéressantes que les méthodes clas-
siques (en particulier en réduisant le temps de calcul et en permettant une interprétation
visuelle de l’analyse, Vesanto & Alhoniemi (2000)), la classification obtenue à partir
des référents n’est pas optimale, puisqu’une partie de l’information à été perdue lors
de la première étape. De plus, cette séparation en deux étapes n’est pas adaptée à une
classification dynamique de données qui évoluent dans le temps, malgré des besoins
importants d’outils pour l’analyse de ce type de données.
Nous proposons donc ici un nouvel algorithme de classification topographique non-
supervisée, DS2L-SOM, qui apprend simultanément les prototypes (référents) d’une
CAp 2008
carte auto-organisatrice et sa segmentation en utilisant à la fois des informations sur les
distances et la densité des données.
2.1 Principe
Une SOM est un algorithme d’apprentissage compétitif non-supervisé à partir d’un
réseau de neurones artificiels (Kohonen, 1984, 2001). Lorsqu’une observation est recon-
nue, l’activation d’un neurone du réseau, sélectionné par une compétition entre les neu-
rones, a pour effet le renforcement de ce neurone et l’inhibition des autres (c’est la règle
du “Winner Takes All”). Chaque neurone se spécialise donc au cours de l’apprentissage
dans la reconnaissance d’un certain type d’observations. La carte auto-organisatrice est
composée d’un ensemble de neurones connectés entre eux par des liens topologiques
qui forment une grille bi-dimensionnelle. Chaque neurone est connecté à nentrées
(correspondant aux ndimensions de l’espace de représentation) selon npondérations
w(i)= (w(i)
1, ..., w(i)
n)(qui forment le vecteur prototype du neurone). Les neurones sont
aussi connectés à leurs voisins par des liens topologiques. Le jeu de données est utilisé
pour organiser la carte selon les contraintes topologiques de l’espace d’entrée. Ainsi,
une configuration entre l’espace d’entrée et l’espace du réseau est construite ; deux ob-
servations proches dans l’espace d’entrée activent deux unités proches sur la carte. Une
organisation spatiale optimale est déterminée par la SOM à partir des données et quand
la dimension de l’espace d’entrée est inférieure à trois, aussi bien la position des vec-
teurs de poids que des relations de voisinage directes entre les neurones peuvent être
représentées visuellement. Le neurone gagnant met à jour son vecteur prototype, de fa-
çon à devenir plus sensible à une présentation future de ce type de donnée. Cela permet à
différents neurones d’être entraînés pour différents types de données. De façon à assurer
la conservation de la topologie de la carte, les voisins du neurone gagnant peuvent aussi
ajuster leur vecteur prototype vers le vecteur présenté, mais dans un degré moindre, en
fonction de leurs distances au prototype gagnant. Ainsi, les prototypes les plus proches
d’une donnée correspondent à des neurones voisins sur la carte. En général, on utilise
pour cela une fonction de voisinage gaussienne à symétrie radiale Kij .
Dans un algorithme précédemment proposé (S2L-SOM, Cabanes & Bennani, 2007),
nous proposions d’associer à chaque connexion de voisinage une valeur réelle vqui
indique la pertinence des neurones connectés. Étant donné la contrainte d’organisa-
tion de la carte, les deux meilleurs représentants de chaque donnée sont reliés par une
connexion topologique. Cette connexion sera “récompensée” par une augmentation de
sa valeur, alors que toutes les autres connexions issues du meilleur représentant se-
ront “punies” par une diminution de leurs valeurs. Les récompenses et les punitions
sont d’autant plus importantes que l’apprentissage est bien avancé et donc que la struc-
ture de la carte est bien représentative de la structure des données. Ainsi, à la fin de
l’apprentissage, un ensemble de neurones interconnectés sera représentatif d’un sous-
groupe pertinent de l’ensemble des données : un cluster. Cependant, les sous-groupes
en contact sont définis seulement par une diminution de densité (Ultsch, 2005) et S2L-
SOM ne peut le détecter. Dans l’algorithme DS2L-SOM , nous proposons d’apprendre
une estimation de la densité locale des données, afin de détecter les fluctuations de
densité qui caractérisent les frontières entre les groupes de données.
Classification à base de modes de densité
2.2 Algorithme DS2L-SOM
L’apprentissage connexionniste est souvent présenté comme la minimisation d’une
fonction de coût. Dans notre cas, cela correspond à la minimisation de la distance entre
les données et les prototypes de la carte, pondérée par une fonction de voisinage Kij
(Kohonen, 2001). Pour ce faire, nous utilisons un algorithme de gradient. La fonction
de coût à minimiser est définie par :
C(w) = 1
N
N
X
k=1
M
X
j=1
Kj,u(x(k))kw(j)x(k)k2
Avec Nle nombre de données, Mle nombre de neurones de la carte, u(x(k))est le
neurone dont le vecteur prototype est le plus proche de la donnée x(k)(le “best match
unit” : BM U). w(j)est le prototype associé au neurone j.Kij est une fonction symé-
trique positive à noyau : la fonction de voisinage. L’importance relative d’un neurone i
comparé à un neurone jest pondérée par la valeur de Kij , qui peut être définie ainsi :
Ki,j =1
λ(t)×ed2
1(i,j)
λ2(t)
λ(t)est une fonction de température qui contrôle l’étendue du voisinage qui diminue
avec le temps tde λiàλf(par exemple λi= 2 àλf= 0,5) :
λ(t) = λi(λf
λi
)t
tmax
tmax est le nombre maximum d’itérations autorisé pour l’apprentissage. d1(i, j)est la
distance de Manhattan définie entre deux neurones i(de coordonnée (k, m)) et j(de
coordonnée (r, s)) sur la grille de la carte :
d1(i, j) =krkk+ksmk
L’algorithme DS2L-SOM est une adaptation de l’algorithme S2L-SOM (Cabanes &
Bennani, 2007). Avec S2L-SOM, chaque connexion de voisinage est associée à une va-
leur réelle vqui indique la pertinence de la connexion entre deux neurones. La valeur
de cette connexion est adaptée au cours du processus d’apprentissage. Martinetz (1993)
a montré que le graphe généré de cette manière préserve la topologie de façon optimale.
En particulier chaque arc de ce graphe suit la triangulation de Delaunay correspondant
aux vecteurs de référence. Pour chaque donnée, les deux meilleurs prototypes sont re-
liés par une connexion topologique. La valeur de cette connexion sera augmentée, alors
que les valeurs de toutes les autres connexions impliquant le meilleur prototype seront
réduites. Ainsi, à la fin de l’apprentissage, un ensemble de prototypes inter-connectés
sera une bonne représentation de sous-groupes bien séparés de l’ensemble des données.
Dans l’algorithme DS2L-SOM, nous proposons en outre d’associer à chaque unité i
une estimation de la densité locale des données D(i), de manière à détecter les fluc-
tuations de densité qui définissent les frontières entre groupes en contact. Pour chaque
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !