Formations en Informatique de Lille 2009/2010 Fouille de Données mars 2010 Clustering : algorithme des K-moyennes But de la manipulation Programmer l'algorithme des K-moyennes sur deux ensembles de données. Aborder les notions de distance, de moyenne. Juger et mesurer la qualité du clustering. Les données Iris L'ensemble des données iris est un classique. Il contient la description de 150 iris, appartenant à trois espèces diérentes. Chaque exemple est décrit par cinq champs, les quatre premiers sont des réels, le dernier, nominal, représente la classe. 1. Longueur des sépales. 2. Largeur des sépales. 3. Longueur des pétales. 4. Largeur des pétales. 5. Classe : Iris-setosa,Iris-versicolor,Iris-virginica. Les iris setosa sont plus petits que les autres, mais la frontière est plus diuse entre les versicolor et les virginica. Abalone L'ensemble de données Abalone contient la description de 4177 petits coquillages. Le but initial est d'essayer de deviner l'âge de chaque coquillage en fonction du nombre de rainures sur sa coquille. Chaque abalone est décrit par 9 champs : 1. Sexe : un caractère parmi M,F,I (mâle, femelle, jeune) 2. Longueur : un réel : le grand axe de l'animal en mm. 3. Diamètre : un réel : le petit axe en mm. 4. Hauteur : un réel ( mm) 2 Formations en Informatique de Lille 2009/2010 : Fouille de Données 5. Poids total : un réel (grammes) 6. Poids de la chair : un réel (grammes) 7. Poids ds organes internes : un réel (grammes) 8. Poids de la coquille : un réel (grammes) 9. Nombre d'anneaux : un entier. L'âge d'un abalone s'obtient en ajoutant 1,5 au nombre d'anneaux. Travail demandé Vous devez implémenter l'algorithme des K-moyennes pour essayer de segmenter correctement chacun des deux ensembles de données. Il y a plusieurs façons de comprendre l'expression classer correctement : Les clusters correspondent la répartition en classes : la classe n'est donc pas utilisée dns la phase de clustering, mais sert pour la vérication a posteriori. Les clusters sont compacts et bien séparés les uns des autres. Il vous faudra dénir : La distance ou la mesure de dissimilarité que vous aller utiliser. La notion de centre. Une méthode pour évaluer la pertinence de votre algorithme (comparaison avec la classe, compacité des clusters, distances entre les clusters). Le nombre de clusters. Données et outils Les ensembles de données sont disponibles sur le portail. Deux petits programmes Java vous montrent comment lire les chiers et récupérer les données qui y gurent : un copier/coller vous permettra de ne pas passer de temps sur cet aspect du travail, et vous concentrer sur l'algorithme et l'étude des résultats.