Clustering

publicité
Master Maths Finances 2014/2015
Fouille de Données
février 2015
Clustering
Ce tp se propose d'illustrer le fonctionnement des algorithmes de clustering vus en cours, et de
voir fonctionner d'autres algorithmes.
1 Les iris
1.1
Analyse sommaire des données
Etudions les algorithmes de clustering sur le chier iris.arff, disponible sur le portail. Visualisez le
chier Iris.ar, principalement les commentaires du début, qui décrivent d'abord l'origine du chier,
liste les études qui ont été faites à son sujet. Ensuite, on décrit les attributs et leur distribution.
On peut se faire une idée plus précise des liens entre les attributs en utilisant l'outil Correlation
Matrix (lire l'aide associée).
Question 1.1 :
Quelles conclusions en tirez-vous ?
Y a-t-il un lien entre ce que vous apprenez par cet outil et ce que vous pouvez voir en utilisant
les outils de visualisation (Plot View) ?
1.2
L'algorithme des K-moyennes
RapidMiner en propose plusieurs versions, prenez le premier dans la liste (Modeling-> Clustering
and Segmentation->K-Means). L'algorithme ne fonctionnant qu'avec des attributs numériques, il
faut retirer la classe des exemples de l'ensemble des attributs : cela se fait à l'aide de l'outil Select
Attributes (Attribute Set Reduction and Transformation->Selection->Select Attributes).
On peut aussi utiliser l'outil Set Role, en indiquant que class est un label : l'attribut sera toujours présent dans les exemples, mais ne sera pas utilisé pour calculer les clusters.
Question 1.2 : Observez et manipulez les paramètres de l'algorithme de K-Means. Utilisez les diérents modes de visualisation pour analyser les résultats. Les clusters correspondent-ils aux classes ?
Toujours ? Parfois ? A quelles conditions ?
Si on veut pouvoir garder l'information des classes, et qu'on a utilisé Select Attributes, on peut
opérer de la façon suivante :
2
Master Maths Finances 2014/2015 : Fouille de Données
Ajouter un identicateur (un numéro) à chaque exemple : cela se fait en insérant un outil Generate
ID à la sortie de l'outil Read.( Servez-vous de la fenêtre de recherche de RapidMiner, située en
haut de la fenêtre de gauche pour retrouver cet outil).
A la sortie de cette boîte, dupliquez les exemples (outil Materialize Data ou bien Multiply).
Sur un des deux chemins, insérez la sélection d'attributs et K-Means.
Sur l'autre chemin, on garde l'ensemble d'exemples initial.
Regroupez la sortie de K-Means (cosse du bas) qui représente les exemples augmentés d'un
attribut cluster, et l'ensemble initial avec l'outil Join.
Plus simplement, il n'y a rien à faire lorsqu'on a utilisé l'outil Set Role (mais la technique du Join
est bonne à connaître pour l'utiliser dans d'autres circonstances).
Vous pouvez alors graphiquement contrôler l'adéquation entre les clusters et les classes. . .
Question 1.3 : Le menu Evaluation->Clustering contient des outils permettant de mesurer les
performances d'un clustering. Testez-les. Etudiez en particulier Map Clustering on Labels, qui
permet de comparer le résultat du clustering à la classe.
1.3
K-Medoids
Reprenez les manipulations avec l'algorithme des K-Medoids. Cet algorithme n'impose pas que les
attributs soient numériques. Y a-t-il des changements dans l'aectation des clusters selon que l'on
considère la classe ou pas ?
1.4
DBSCAN
Reprenez l'étude avec DBSCAN.
Question 1.4 : Quel algorithme vous semble le plus ecace sur cet ensemble de données ?
1.5
Autres algorithmes
Esssayez Agglomerative Clustering et Expectation Maximization Clustering.
2 Le chier vote
Dans cet exercice, on vous laisse étudier un autre chier de données
américain. Le chier en version arff est disponible sur le portail.
2.1
célèbre
Analyse préliminaire des données
Question 2.1 :
Que contient ce chier ?
Combien y a-t-il d'exemples, d'attributs ?
A-t-on dénit une classe ?
Quelles autres informations peut-on trouver dans le préambule du chier ?
: les votes du congrès
Clustering
3
Question 2.2 : En utilisant les outils de visualisation ou les matrices de corrélation (ou d'autres
outils de Rapidminer ?), quelles conclusions pouvez-vous tirer de ce chier avant d'utiliser un algorithme de fouille de données ?
Etudiez l'application des algorithmes de clustering vus en cours sur ces données, en
essayant de construire des clusters correspondants aux classes. Si ce n'est pas possible, discutez le
résultat de l'application de ces algorithmes.
Question 2.3 :
En quoi, à votre avis, cet ensemble de données est-il diérent de l'exemple des iris ?
En quoi cela change-t-il pour vous la démarche de fouille ?
Question 2.4 :
Téléchargement