Thomas André Manuel Brisville
UTFPR
Data Mining
Compte-rendu de l’activité d’évaluation
11/02/2015
Thomas André Manuel Brisville | Data Mining
1
1 Table des matières
2 Introduction ..................................................................................................................................... 2
3 La base de données utilisée ............................................................................................................ 3
3.1 Origine de la base .................................................................................................................... 3
3.2 Ses attributs et leurs caractéristiques ..................................................................................... 3
3.3 Exploration des données ......................................................................................................... 4
4 Classification .................................................................................................................................... 6
4.1 Arbres de décision ................................................................................................................... 6
4.1.1 Avec le package Party ...................................................................................................... 6
4.1.2 Avec le package Rpart ..................................................................................................... 6
4.2 Naïve-Bayes ............................................................................................................................. 8
5 Cluster.............................................................................................................................................. 9
5.1 K-means ................................................................................................................................... 9
6 Conclusion ..................................................................................................................................... 10
Thomas André Manuel Brisville | Data Mining
2
2 Introduction
Le rapport suivant a pour but d’exposer les résultats du travail d’évaluation du cours de Data Mining
dispensé à l’UTFPR par le professeur Celso Kaestner dans le cadre du programme de Post-Graduation
en Informatique appliquée.
Ce travail d’évaluation a pour objectif de solliciter et de mettre en œuvre les concepts abordés en
cours en utilisant une base de données comme support d’études.
Tout au long de ce rapport, le langage de programmation employé est le langage R et sera utilisé
dans son environnement de développement dédié : R Studio.
Thomas André Manuel Brisville | Data Mining
3
3 La base de données utilisée
Pour ce travail, j’utilise la base « Wine recognition data ». Cette base a déjà été utilisée pour des
travaux visant à comparer plusieurs classificateurs.
3.1 Origine de la base
Ces données sont les résultats d’analyses chimiques de vins qui ont vieillis dans la même région en
Italie mais issus de 3 vignobles différents. Les analyses déterminent les quantités de 13 composants
trouvés dans chacun de ces 3 types de vins.
3.2 Ses attributs et leurs caractéristiques
La base de données est composée de 13 attributs représentant les 13 composants trouvés dans les
vins. Tous ces attributs sont continus. Elle possède également un attribut qui représente l’identifiant
de classe, c’est-à-dire, de quel vignoble est issu le vin concerné.
Thomas André Manuel Brisville | Data Mining
4
3.3 Exploration des données
Le langage R permet dexplorer les données du Dataset, de façon individuelle ou
multidimensionnelle.
On peut, par exemple connaitre la distribution des types de vin dans lensemble de données et
recourir à une représentation graphique de ces résultats.
La fonction hist() permet davoir une
représentation graphique de la distribution dun
attribut dans lintervalle de ses valeurs.
Il existe de nombreuses façons de représenter les données, en voici quelques exemples.
Le Boxplot est une représentation graphique de données statistiques. Il s'agit de tracer un rectangle
allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute alors des
segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième
déciles.
Quartile : En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données
triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population.
le 1er quartile sépare les 25 % inférieurs des données ;
le 2e quartile est la médiane de la série ;
le 3e quartile sépare les 25 % supérieurs des données.
Décile : En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données,
triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de
l'échantillon de population.
le seuil du 1er décile sépare le jeu de données entre les 10 % inférieurs et le reste des
données ;
le seuil du 9e décile sépare les 90 % inférieurs des données des 10 % supérieurs.
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !