Data Mining - DAINF

publicité
Thomas André Manuel Brisville
Data Mining
Compte-rendu de l’activité d’évaluation
11/02/2015
UTFPR
1 Table des matières
2
Introduction ..................................................................................................................................... 2
3
La base de données utilisée ............................................................................................................ 3
4
3.1
Origine de la base .................................................................................................................... 3
3.2
Ses attributs et leurs caractéristiques ..................................................................................... 3
3.3
Exploration des données ......................................................................................................... 4
Classification .................................................................................................................................... 6
4.1
4.1.1
Avec le package Party ...................................................................................................... 6
4.1.2
Avec le package Rpart ..................................................................................................... 6
4.2
5
Naïve-Bayes ............................................................................................................................. 8
Cluster.............................................................................................................................................. 9
5.1
6
Arbres de décision ................................................................................................................... 6
K-means ................................................................................................................................... 9
Conclusion ..................................................................................................................................... 10
1
Thomas André Manuel Brisville | Data Mining
2 Introduction
Le rapport suivant a pour but d’exposer les résultats du travail d’évaluation du cours de Data Mining
dispensé à l’UTFPR par le professeur Celso Kaestner dans le cadre du programme de Post-Graduation
en Informatique appliquée.
Ce travail d’évaluation a pour objectif de solliciter et de mettre en œuvre les concepts abordés en
cours en utilisant une base de données comme support d’études.
Tout au long de ce rapport, le langage de programmation employé est le langage R et sera utilisé
dans son environnement de développement dédié : R Studio.
2
Thomas André Manuel Brisville | Data Mining
3 La base de données utilisée
Pour ce travail, j’utilise la base « Wine recognition data ». Cette base a déjà été utilisée pour des
travaux visant à comparer plusieurs classificateurs.
3.1 Origine de la base
Ces données sont les résultats d’analyses chimiques de vins qui ont vieillis dans la même région en
Italie mais issus de 3 vignobles différents. Les analyses déterminent les quantités de 13 composants
trouvés dans chacun de ces 3 types de vins.
3.2 Ses attributs et leurs caractéristiques
La base de données est composée de 13 attributs représentant les 13 composants trouvés dans les
vins. Tous ces attributs sont continus. Elle possède également un attribut qui représente l’identifiant
de classe, c’est-à-dire, de quel vignoble est issu le vin concerné.
3
Thomas André Manuel Brisville | Data Mining
3.3 Exploration des données
Le langage R permet d’explorer les données du Dataset, de façon individuelle ou
multidimensionnelle.
On peut, par exemple connaitre la distribution des types de vin dans l’ensemble de données et
recourir à une représentation graphique de ces résultats.
La fonction hist() permet d’avoir une
représentation graphique de la distribution d’un
attribut dans l’intervalle de ses valeurs.
Il existe de nombreuses façons de représenter les données, en voici quelques exemples.
Le Boxplot est une représentation graphique de données statistiques. Il s'agit de tracer un rectangle
allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute alors des
segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième
déciles.
Quartile : En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données
triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population.
le 1er quartile sépare les 25 % inférieurs des données ;
le 2e quartile est la médiane de la série ;
le 3e quartile sépare les 25 % supérieurs des données.
Décile : En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données,
triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de
l'échantillon de population.
le seuil du 1er décile sépare le jeu de données entre les 10 % inférieurs et le reste des
données ;
le seuil du 9e décile sépare les 90 % inférieurs des données des 10 % supérieurs.
4
Thomas André Manuel Brisville | Data Mining
Prenons l’exemple de la représentation en Boxplot des valeurs du taux d’alcool en fonction du type
de vin :
Le scatter plot permet également d’avoir une représentation graphique des données en utilisant 2
attributs. Les symboles et couleurs mettent ici en évidence les types de vins.
Une représentation graphique des données en utilisant 3 attributs est également possible. Nous
avons alors une représentation en 3D des données.
5
Thomas André Manuel Brisville | Data Mining
4 Classification
4.1 Arbres de décision
4.1.1
Avec le package Party
Le but des arbres de décisions et de pouvoir prédire les nouvelles données. Pour cela, j’ai d’abord
utilisé le package Party qui fournit les fonctions ctree() pour construire l’arbre de décision et predict()
qui prédit les nouvelles données.
J’utilise l’ensemble de base pour avoir un ensemble training et un ensemble test. Je construis ensuite
mon arbre avec pour variable cible, Classe qui correspond au type de vin.
4.1.2
Avec le package Rpart
Ici, on utilise la fonction rpart() pour construire un arbre, l’arbre avec le minimum d’erreurs de
prédiction est sélectionné.
Thomas André Manuel Brisville | Data Mining
6
On utilise ensuite cet arbre pour faire des prédictions et les comparer aux données actuelles.
7
Thomas André Manuel Brisville | Data Mining
4.2 Naïve-Bayes
Pour construire un classificateur Naive-Bayes, on a besoin du package e1071.
Le classificateur génère trois gaussiennes représentant chaque valeur de l’attribut Classe.
8
Thomas André Manuel Brisville | Data Mining
5 Cluster
5.1 K-means
Pour le k-means clustering, j’ai commencé par mettre de côté la colonne de l’attribut Classe. J’ai
ensuite appliqué la fonction kmeans() sur mes données pour 3 clusters.
J’ai ensuite comparé ces clusters à l’attribut Classe.
On peut voir que le cluster 3 représente assez bien le vin du vignoble 2.
9
Thomas André Manuel Brisville | Data Mining
6 Conclusion
Ce travail m’a permis de mettre en œuvre des concepts vus en cours, même si je n’ai pas réussi à
tout faire, j’ai eu l’opportunité d’acquérir des connaissances sur un domaine pointu de
l’informatique.
10
Thomas André Manuel Brisville | Data Mining
Téléchargement