CAp 2008
à un autre groupe (homogénéité interne et séparation externe). Les groupes peuvent
aussi être décrits comme des régions connectées d’un espace multidimensionnel conte-
nant une relative haute densité de points, séparés d’autres telles régions par une zone
contenant une densité relativement basse de points. La détection de ces regroupements
joue un rôle indispensable pour la compréhension de phénomènes variés décrits par un
ensemble d’observations.
Il existe de nombreuses méthodes de classification non supervisée (Jain & Dubes,
1988). Même une courte liste d’algorithmes de classification non supervisée bien con-
nus peut engendrer plusieurs taxonomies. De telles taxonomies sont d’habitude cons-
truites en considérant : (i) la représentation des données, par exemple matrice de don-
nées ou matrice de similarité, ou type de données, structures de données par exemple
binaires, catégoriques, continues, ou structurées en séquences, arbres, graphes etc, (ii)
la procédure de production des groupes, par exemple une division ou une hiérarchie
de divisions, (iii) direction de la classification, par exemple agglomérative ou divisive.
Les approches les plus classiques sont les méthodes hiérarchiques et les méthodes par-
titives. Les méthodes de classification hiérarchiques agglomératives (CAH) utilisent
un arbre hiérarchique (dendrogramme) construit à partir des ensembles à classifier, les
nœuds de l’arbre issus d’un même parent formant un groupe homogène (Ward, 1963).
Au contraire, les méthodes partitives regroupent des données sans utiliser de structure
hiérarchique.
Une autre famille d’algorithmes de classification non supervisée dite "classification
à deux niveaux" procède en deux phases pour identifier les groupes dans une base de
données. Dans la première phase du processus, l’algorithme estime des référents re-
présentant des micro-groupes (micro-clusters). Dans la deuxième phase, les partitions
associées à chaque référent sont utilisées pour former la classification finale des don-
nées en utilisant une méthode de classification traditionnelle. Dans cette famille d’al-
gorithmes, on trouve l’utilisation de la carte auto-organisatrice ou Self Organizing Map
(SOM : Kohonen, 1984, 2001) fréquemment utilisée comme première étape d’une
classification à deux niveaux pour l’estimation des micro-clusters. Une SOM est un
algorithme neuro-inspiré qui, par un processus non-supervisé compétitif, est capable
de représenter des données de grandes dimensions par un ensemble de prototypes (ou
référents) contraints de conserver une topologie de faible dimension (deux ou trois le
plus souvent). Cet algorithme d’apprentissage non supervisé est une technique non li-
néaire très populaire pour la réduction de dimensions et la visualisation des données.
Lors de la deuxième étape (niveau 2), la détection des regroupements est en général
obtenue en utilisant des techniques de classification classiques telles que K-Moyennes
ou des méthodes hiérarchiques, de façon à obtenir des regroupements de prototypes qui
représentent la partition finale des données.
Cependant, le déroulement séquentiel des deux niveaux s’accompagne inévitable-
ment d’une perte d’information sur la structure des données. L’objectif de cet article est
donc de proposer une méthode de classification à deux niveaux simultanés, qui s’ap-
puie sur l’apprentissage d’une SOM tout en conservant le maximum d’information sur
la structure des données. Pour cela nous proposons de détecter la structure des données
pendant l’apprentissage de la SOM. Ainsi l’estimation des référents (représentants des
micro-clusters) et leur regroupement se font simultanément donnant ainsi une partition