Donc cet algorithme converge et optimise le moment d'ordre 2, ou inertie inter-classe. Dans notre cas ce
moment n'est autre (à un coefficient près) que le critère du Khi-carré de contingence entre la partition K et
l'ensemble J des modalités de variables.
4 Evaluation du nouvel algorithme.
4.1 Application à des données connues (Critère externe).
Le premier jeu de données, que nous appelons PHYTOS (pour phytosociologie), est constitué de 16
relevés floristiques caractérisés par la présence ou l'absence d'un ensemble de 66 espèces [ROU 85]. De
nombreux travaux sur ces données nous ont conduits à une partition en 4 classes que nous considérons
comme « bonne ». Cette partition nous servira de référence dans les comparaisons ci-dessous.
Le second jeu de données, que nous appelons BOUCLES, décrit un ensemble de 59 plaques métalliques
ornementées soutenant des boucles de ceintures. Ces boucles proviennent de fouilles archéologiques et
sont d’époque médiévale (6-ème, 8-ème siècle). Elles sont décrites par 29 types de décorations en
présence ou absence [LER 80]. Les auteurs de ce travail proposent plusieurs partitions, dont une en 5
classes qui nous servira de référence.
Un troisième jeu de données a été obtenu par simulation. Nous avons fabriqué une matrice de données en
0-1 constituée de blocs à prédominance de 1 (avec probabilité 0,8) et d’autres blocs à prédominance de
zéros (avec probabilité 0,8 également) à la manière de Govaert [GOV 84]. Le tableau, que nous appelons
BLOCS, comporte 100 objets repérés par 30 caractères. La classification porte sur les 100 objets.
4.2 Comparaison avec d'autres méthodes (Critère interne).
Les trois autres méthodes de classification évoquées au paragraphe 2 ci-dessus ont été mises en
concurrence avec le nouvel algorithme. Les partitions obtenues par chacune des 4 méthodes sont évaluées
par le critère de l’inertie interclasse, calculée selon la métrique du Khi-carré, et appliquée aux données
initiales. Dans les trois jeux de données le tableau brut est traité directement, sans disjonction des
modalités. Dans le cas du prétraitement par l'AFC, on a retenu les 6 premiers axes factoriels pour les
données PHYTOS (représentant 72,4 % de la variation totale), 4 axes factoriels seulement pour les
données BOUCLES (représentant 77,9 % de la variation totale) et 4 axes également pour les données
artificielles BLOCS (représentant 43,1 % de la variation totale).
4.3 Résultats des comparaisons.
Les meilleures partitions obtenues avec chaque algorithme ont été comparées sur la base de l’inertie
interclasse, calculée sur les données brutes avec la métrique du Khi-carré (Tableau 1). Ces partitions ont
été obtenues après 500 tirages aléatoires initiaux pour tous les jeux de données.
Prétraitement
AFC
K-médoïdes K-modes K-profils Partition de
référence
PHYTOS 0,4003 0,3951 0,3922 0,3954 0,3857
BOUCLES 0,7189 0,6269 0,7132 0,7198 0,7119
BLOCS 0,3228 0,2170 0,3136 0, 3251 0,3089
Tableau 1. Valeurs des rapports inertie-inter/inertie-totale selon les algorithmes et les jeux de données.
Les qualités des partitions obtenues sont très voisines et, en général, meilleures que les partitions de
référence. Le nouvel algorithme arrive au deuxième rang dans le premier cas et au premier rang dans les
deux autres cas. Le résultat inattendu est la bonne tenue de la méthode utilisant le prétraitement par l’AFC.