
Classification de données non supervisée Résumé
Résumé
La classification de données non supervisée est une méthode consistant 
à classer différents objets en une partition de sous ensembles, non connue à 
l'avance,   selon   un   critère.   Ces   observations   peuvent   ainsi   être   classées   de 
manière homogène, distincte, ou les deux. L'homogénéité se traduit par le fait 
que tous les points présents dans un sous ensemble sont similaires ; la distinction 
se traduit quand à elle par le fait que les points présents dans un sous ensemble 
sont différents de ceux présents dans un autre sous ensemble.
Le critère de  la  somme  des  diamètres  est un problème de  classification 
homogène. Selon ce critère les objets sont rangés dans les sous ensembles de 
telle sorte que le diamètre de la partition finale, qui correspond à la somme des 
diamètres  des   sous   ensembles   la   composant,   soit   le   plus  petit   possible.   Le 
diamètre d'un sous ensemble correspond à la plus grande dissimilarité entre deux 
objets présents dans cet ensemble.
Pour résoudre de tels problèmes, le programme sur lequel j'ai effectué mon 
stage, et qui se compose d'une heuristique initiale, d'une seconde heuristique 
et d'une  méthode exacte, utilise des  logiciels de programmation linéaire, 
reliés au programme grâce à des classes spécifiques. L'utilisation de tels logiciels 
peut cependant poser des problèmes, au niveau par exemple de la  précision 
numérique,   et   nous   devons   vérifier   que   celle-ci   est   la   même   dans   tout   le 
programme, en utilisant une classe dédiée à cette tâche.
Il existe aussi une manière rapide de connaître le nombre de sous ensembles 
optimal pour un problème donné. Il suffit pour cela d'appliquer une  méthode 
hiérarchique à ce problème. Une telle méthode nous fournie le coût engendré 
par  la fusion de  deux  sous ensembles,  et nous   permet  de déterminer si  une 
classification en ce nombre d'ensemble est correcte ou non. 
Mots clés : classification de données non supervisée, somme des diamètres, 
heuristique,   méthode   exacte,   logiciel   de   programmation   linéaire,   précision 
numérique, méthode hiérarchique
Rapport de stage 2009