Master Maths Finances 2010/2011 Data Mining mars 2011 Clustering Ce tp se propose d'illustrer le fonctionnement des algorithmes de clustering vus en cours, et de voir fonctionner d'autres algorithmes. 1 Les iris Etudions les algorithmes de clustering sur le chier iris, disponible sur le portail. 1.1 L'algorithme des K-moyennes RapidMiner en propose plusieurs versions, prenez le premier dans la liste (Modeling-> Clustering and Segmentation->K-Means). L'algorithme ne fonctionnant qu'avec des attributs numériques, il faut retirer la classe des exemples de l'ensemble des attributs : cela se fait à l'aide de l'outil Select Attributes (Attribute Set Reduction and Transformation->Selection->Select Attributes) Question 1.1 : Observez et manipulez les paramètres de l'algorithme de K-Means. Utilisez les diérents modes de visualisation pour analyser les résultats. Les clusters correspondent-ils aux classes ? Toujours ? Parfois ? A quelles conditions ? Si on veut pouvoir garder l'information des classes, on peut opérer de la façon suivante : Ajouter un identicateur (un numéro) à chaque exemple : cela se fait en insérant un outil Generate ID à la sortie de l'outil Read.( Servez-vous de la fenêtre de recherche de RapidMiner, située en haut de la fenêtre de gauche pour retrouver cet outil). A la sortie de cette boîte, dupliquez les exemples (outil Materialize Data). Sur un des deux chemins, insérez la sélection d'attributs et K-Means. Sur l'autre chemin, on garde l'ensemble d'exemples initial. Regroupez la sortie de K-Means (cosse du bas) qui représente les exemples augmentés d'un attribut cluster, et l'ensemble initial avec l'outil Join. Vous pouvez alors graphiquement contrôler l'adéquation entre les clusters et les classes. . . Question 1.2 : Le menu Evaluation->Clustering contient des outils permettant de mesurer les performances d'un clustering. Testez-les. Etudiez en particulier Map Clustering on Labels, qui permet de comparer le résultat du clustering à la classe. 2 1.2 Master Maths Finances 2010/2011 : Data Mining K-Medoids Reprenez les manipulations avec l'algorithme des K-Medoids. Cet algorithme n'impose pas que les attributs soient numériques. Y a-t-il des changements dans l'aectation des clusters selon que l'on considère la classe ou pas ? 1.3 DBSCAN Reprenez l'étude avec DBSCAN. Question 1.3 : Quel algorithme vous semble le plus ecace sur cet ensemble de données ? 1.4 Autres algorithmes Esssayez Agglomerative Clustering et Expectation Maximization Clustering. 2 Nuage 2D Chargez le chier nuage.arff disponible sur le portail, et reprenez son étude sur le même schéma qu'à la section précédente. Question 2.1 : Quel est l'algorithme qui s'en sort le mieux ? Question 2.2 : Comment forcer K-Means à trouver de 'bons' clusters ?