OBJECTIF
Le principe de la classification est de regrouper
automatiquement un ensemble d'objets en classes à partir
d'informations sur ces objets. La classification
"ascendante" part de classes singleton (un objet = une
classe) et regroupe pas à pas les classes les plus
proches ou similaires jusqu'à arriver à une unique classe
contenant tous les objets. La notion de similarité dite
aussi distance de liaison est une mesure définie à partir
des informations sur chaque classe ou objet et dépend de
l'algorithme de classification utilisé.
La classification ascendante construit un arbre de
classification, les feuilles étant les classes singleton
et la racine la classe réunissant tous les objets.
Le but de ce stage est de développer une bibliothèque de
manipulation d'arbres de classification obtenus avec un
outil de classification ascendante. Pour cela il faudra
définir une structure de données (de type arbre binaire)
qui représente un tel arbre :
un noeud correspond soit à une classe singleton, soit
à la fusion de deux classes
tout noeud est étiqueté avec le numéro de la fusion
ou de l'objet ainsi que la distance de liaison de
cette fusion (ou -1 si c'est un objet).
DESCRIPTION
La bibliothèque devra comporter:
une fonction de chargement qui, à partir d'un fichier
décrivant un arbre de classification dans un certain
format, construit sa représentation en mémoire
(structure de données définie)
une fonction qui construit une table d'indirection
entre la fusion numéro i et le noeud correspondant à
cette fusion dans l'arbre
une fonction affichant la suite des distances de
liaison
une fonction qui produit une représentation texte d'un
arbre de classification dans un fichier
Connaissances minimales requises : C ou C++ (pointeurs et
tableaux) et notion sur les arbres.
Encadrement