Clustering : algorithme des K-moyennes

publicité
Formations en Informatique de Lille 2009/2010
Fouille de Données
mars 2010
Clustering : algorithme des K-moyennes
But de la manipulation
Programmer l'algorithme des K-moyennes sur deux ensembles de données.
Aborder les notions de distance, de moyenne.
Juger et mesurer la qualité du clustering.
Les données
Iris
L'ensemble des données iris est un classique. Il contient la description de 150 iris, appartenant à
trois espèces diérentes.
Chaque exemple est décrit par cinq champs, les quatre premiers sont des réels, le dernier, nominal,
représente la classe.
1. Longueur des sépales.
2. Largeur des sépales.
3. Longueur des pétales.
4. Largeur des pétales.
5. Classe : Iris-setosa,Iris-versicolor,Iris-virginica.
Les iris setosa sont plus petits que les autres, mais la frontière est plus diuse entre les versicolor
et les virginica.
Abalone
L'ensemble de données Abalone contient la description de 4177 petits coquillages. Le but initial est
d'essayer de deviner l'âge de chaque coquillage en fonction du nombre de rainures sur sa coquille.
Chaque abalone est décrit par 9 champs :
1. Sexe : un caractère parmi
M,F,I (mâle, femelle, jeune)
2. Longueur : un réel : le grand axe de l'animal en mm.
3. Diamètre : un réel : le petit axe en mm.
4. Hauteur : un réel ( mm)
2
Formations en Informatique de Lille 2009/2010 : Fouille de Données
5. Poids total : un réel (grammes)
6. Poids de la chair : un réel (grammes)
7. Poids ds organes internes : un réel (grammes)
8. Poids de la coquille : un réel (grammes)
9. Nombre d'anneaux : un entier.
L'âge d'un abalone s'obtient en ajoutant 1,5 au nombre d'anneaux.
Travail demandé
Vous devez implémenter l'algorithme des K-moyennes pour essayer de segmenter correctement chacun des deux ensembles de données.
Il y a plusieurs façons de comprendre l'expression classer correctement :
Les clusters correspondent la répartition en classes : la classe n'est donc pas utilisée dns la phase
de clustering, mais sert pour la vérication a posteriori.
Les clusters sont compacts et bien séparés les uns des autres.
Il vous faudra dénir :
La distance ou la mesure de dissimilarité que vous aller utiliser.
La notion de centre.
Une méthode pour évaluer la pertinence de votre algorithme (comparaison avec la classe, compacité des clusters, distances entre les clusters).
Le nombre de clusters.
Données et outils
Les ensembles de données sont disponibles sur le portail.
Deux petits programmes Java vous montrent comment lire les chiers et récupérer les données qui
y gurent : un copier/coller vous permettra de ne pas passer de temps sur cet aspect du travail, et
vous concentrer sur l'algorithme et l'étude des résultats.
Téléchargement