Clustering

publicité
Master Maths Finances 2010/2011
Data Mining
mars 2011
Clustering
Ce tp se propose d'illustrer le fonctionnement des algorithmes de clustering vus en cours, et de
voir fonctionner d'autres algorithmes.
1
Les iris
Etudions les algorithmes de clustering sur le chier iris, disponible sur le portail.
1.1
L'algorithme des K-moyennes
RapidMiner en propose plusieurs versions, prenez le premier dans la liste (Modeling-> Clustering
and Segmentation->K-Means). L'algorithme ne fonctionnant qu'avec des attributs numériques, il
faut retirer la classe des exemples de l'ensemble des attributs : cela se fait à l'aide de l'outil Select
Attributes (Attribute Set Reduction and Transformation->Selection->Select Attributes)
Question 1.1 : Observez et manipulez les paramètres de l'algorithme de K-Means. Utilisez les diérents modes de visualisation pour analyser les résultats. Les clusters correspondent-ils aux classes ?
Toujours ? Parfois ? A quelles conditions ?
Si on veut pouvoir garder l'information des classes, on peut opérer de la façon suivante :
Ajouter un identicateur (un numéro) à chaque exemple : cela se fait en insérant un outil Generate
ID à la sortie de l'outil Read.( Servez-vous de la fenêtre de recherche de RapidMiner, située en
haut de la fenêtre de gauche pour retrouver cet outil).
A la sortie de cette boîte, dupliquez les exemples (outil Materialize Data).
Sur un des deux chemins, insérez la sélection d'attributs et K-Means.
Sur l'autre chemin, on garde l'ensemble d'exemples initial.
Regroupez la sortie de K-Means (cosse du bas) qui représente les exemples augmentés d'un
attribut cluster, et l'ensemble initial avec l'outil Join.
Vous pouvez alors graphiquement contrôler l'adéquation entre les clusters et les classes. . .
Question 1.2 : Le menu Evaluation->Clustering contient des outils permettant de mesurer les
performances d'un clustering. Testez-les. Etudiez en particulier Map Clustering on Labels, qui
permet de comparer le résultat du clustering à la classe.
2
1.2
Master Maths Finances 2010/2011 : Data Mining
K-Medoids
Reprenez les manipulations avec l'algorithme des K-Medoids. Cet algorithme n'impose pas que les
attributs soient numériques. Y a-t-il des changements dans l'aectation des clusters selon que l'on
considère la classe ou pas ?
1.3
DBSCAN
Reprenez l'étude avec DBSCAN.
Question 1.3 : Quel algorithme vous semble le plus ecace sur cet ensemble de données ?
1.4
Autres algorithmes
Esssayez Agglomerative Clustering et Expectation Maximization Clustering.
2
Nuage 2D
Chargez le chier nuage.arff disponible sur le portail, et reprenez son étude sur le même schéma
qu'à la section précédente.
Question 2.1 : Quel est l'algorithme qui s'en sort le mieux ?
Question 2.2 :
Comment forcer K-Means à trouver de 'bons' clusters ?
Téléchargement