Master Maths Finances 2014/2015 Fouille de Données février 2015 Clustering Ce tp se propose d'illustrer le fonctionnement des algorithmes de clustering vus en cours, et de voir fonctionner d'autres algorithmes. 1 Les iris 1.1 Analyse sommaire des données Etudions les algorithmes de clustering sur le chier iris.arff, disponible sur le portail. Visualisez le chier Iris.ar, principalement les commentaires du début, qui décrivent d'abord l'origine du chier, liste les études qui ont été faites à son sujet. Ensuite, on décrit les attributs et leur distribution. On peut se faire une idée plus précise des liens entre les attributs en utilisant l'outil Correlation Matrix (lire l'aide associée). Question 1.1 : Quelles conclusions en tirez-vous ? Y a-t-il un lien entre ce que vous apprenez par cet outil et ce que vous pouvez voir en utilisant les outils de visualisation (Plot View) ? 1.2 L'algorithme des K-moyennes RapidMiner en propose plusieurs versions, prenez le premier dans la liste (Modeling-> Clustering and Segmentation->K-Means). L'algorithme ne fonctionnant qu'avec des attributs numériques, il faut retirer la classe des exemples de l'ensemble des attributs : cela se fait à l'aide de l'outil Select Attributes (Attribute Set Reduction and Transformation->Selection->Select Attributes). On peut aussi utiliser l'outil Set Role, en indiquant que class est un label : l'attribut sera toujours présent dans les exemples, mais ne sera pas utilisé pour calculer les clusters. Question 1.2 : Observez et manipulez les paramètres de l'algorithme de K-Means. Utilisez les diérents modes de visualisation pour analyser les résultats. Les clusters correspondent-ils aux classes ? Toujours ? Parfois ? A quelles conditions ? Si on veut pouvoir garder l'information des classes, et qu'on a utilisé Select Attributes, on peut opérer de la façon suivante : 2 Master Maths Finances 2014/2015 : Fouille de Données Ajouter un identicateur (un numéro) à chaque exemple : cela se fait en insérant un outil Generate ID à la sortie de l'outil Read.( Servez-vous de la fenêtre de recherche de RapidMiner, située en haut de la fenêtre de gauche pour retrouver cet outil). A la sortie de cette boîte, dupliquez les exemples (outil Materialize Data ou bien Multiply). Sur un des deux chemins, insérez la sélection d'attributs et K-Means. Sur l'autre chemin, on garde l'ensemble d'exemples initial. Regroupez la sortie de K-Means (cosse du bas) qui représente les exemples augmentés d'un attribut cluster, et l'ensemble initial avec l'outil Join. Plus simplement, il n'y a rien à faire lorsqu'on a utilisé l'outil Set Role (mais la technique du Join est bonne à connaître pour l'utiliser dans d'autres circonstances). Vous pouvez alors graphiquement contrôler l'adéquation entre les clusters et les classes. . . Question 1.3 : Le menu Evaluation->Clustering contient des outils permettant de mesurer les performances d'un clustering. Testez-les. Etudiez en particulier Map Clustering on Labels, qui permet de comparer le résultat du clustering à la classe. 1.3 K-Medoids Reprenez les manipulations avec l'algorithme des K-Medoids. Cet algorithme n'impose pas que les attributs soient numériques. Y a-t-il des changements dans l'aectation des clusters selon que l'on considère la classe ou pas ? 1.4 DBSCAN Reprenez l'étude avec DBSCAN. Question 1.4 : Quel algorithme vous semble le plus ecace sur cet ensemble de données ? 1.5 Autres algorithmes Esssayez Agglomerative Clustering et Expectation Maximization Clustering. 2 Le chier vote Dans cet exercice, on vous laisse étudier un autre chier de données américain. Le chier en version arff est disponible sur le portail. 2.1 célèbre Analyse préliminaire des données Question 2.1 : Que contient ce chier ? Combien y a-t-il d'exemples, d'attributs ? A-t-on dénit une classe ? Quelles autres informations peut-on trouver dans le préambule du chier ? : les votes du congrès Clustering 3 Question 2.2 : En utilisant les outils de visualisation ou les matrices de corrélation (ou d'autres outils de Rapidminer ?), quelles conclusions pouvez-vous tirer de ce chier avant d'utiliser un algorithme de fouille de données ? Etudiez l'application des algorithmes de clustering vus en cours sur ces données, en essayant de construire des clusters correspondants aux classes. Si ce n'est pas possible, discutez le résultat de l'application de ces algorithmes. Question 2.3 : En quoi, à votre avis, cet ensemble de données est-il diérent de l'exemple des iris ? En quoi cela change-t-il pour vous la démarche de fouille ? Question 2.4 :