Classification de données non supervisée Résumé
Résumé
La classification de données non supervisée est une méthode consistant
à classer différents objets en une partition de sous ensembles, non connue à
l'avance, selon un critère. Ces observations peuvent ainsi être classées de
manière homogène, distincte, ou les deux. L'homogénéité se traduit par le fait
que tous les points présents dans un sous ensemble sont similaires ; la distinction
se traduit quand à elle par le fait que les points présents dans un sous ensemble
sont différents de ceux présents dans un autre sous ensemble.
Le critère de la somme des diamètres est un problème de classification
homogène. Selon ce critère les objets sont rangés dans les sous ensembles de
telle sorte que le diamètre de la partition finale, qui correspond à la somme des
diamètres des sous ensembles la composant, soit le plus petit possible. Le
diamètre d'un sous ensemble correspond à la plus grande dissimilarité entre deux
objets présents dans cet ensemble.
Pour résoudre de tels problèmes, le programme sur lequel j'ai effectué mon
stage, et qui se compose d'une heuristique initiale, d'une seconde heuristique
et d'une méthode exacte, utilise des logiciels de programmation linéaire,
reliés au programme grâce à des classes spécifiques. L'utilisation de tels logiciels
peut cependant poser des problèmes, au niveau par exemple de la précision
numérique, et nous devons vérifier que celle-ci est la même dans tout le
programme, en utilisant une classe dédiée à cette tâche.
Il existe aussi une manière rapide de connaître le nombre de sous ensembles
optimal pour un problème donné. Il suffit pour cela d'appliquer une méthode
hiérarchique à ce problème. Une telle méthode nous fournie le coût engendré
par la fusion de deux sous ensembles, et nous permet de déterminer si une
classification en ce nombre d'ensemble est correcte ou non.
Mots clés : classification de données non supervisée, somme des diamètres,
heuristique, méthode exacte, logiciel de programmation linéaire, précision
numérique, méthode hiérarchique
Rapport de stage 2009