Data Mining - DAINF

Téléchargement

Thomas André Manuel Brisville

UTFPR

Data Mining

Compte-rendu de l’activité d’évaluation

11/02/2015

Thomas André Manuel Brisville | Data Mining

1 Table des matières

2 Introduction ..................................................................................................................................... 2

3 La base de données utilisée ............................................................................................................ 3

3.1 Origine de la base .................................................................................................................... 3

3.2 Ses attributs et leurs caractéristiques ..................................................................................... 3

3.3 Exploration des données ......................................................................................................... 4

4 Classification .................................................................................................................................... 6

4.1 Arbres de décision ................................................................................................................... 6

4.1.1 Avec le package Party ...................................................................................................... 6

4.1.2 Avec le package Rpart ..................................................................................................... 6

4.2 Naïve-Bayes ............................................................................................................................. 8

5 Cluster.............................................................................................................................................. 9

5.1 K-means ................................................................................................................................... 9

6 Conclusion ..................................................................................................................................... 10

Thomas André Manuel Brisville | Data Mining

2 Introduction

Le rapport suivant a pour but d’exposer les résultats du travail d’évaluation du cours de Data Mining

dispensé à l’UTFPR par le professeur Celso Kaestner dans le cadre du programme de Post-Graduation

en Informatique appliquée.

Ce travail d’évaluation a pour objectif de solliciter et de mettre en œuvre les concepts abordés en

cours en utilisant une base de données comme support d’études.

Tout au long de ce rapport, le langage de programmation employé est le langage R et sera utilisé

dans son environnement de développement dédié : R Studio.

Thomas André Manuel Brisville | Data Mining

3 La base de données utilisée

Pour ce travail, j’utilise la base « Wine recognition data ». Cette base a déjà été utilisée pour des

travaux visant à comparer plusieurs classificateurs.

3.1 Origine de la base

Ces données sont les résultats d’analyses chimiques de vins qui ont vieillis dans la même région en

Italie mais issus de 3 vignobles différents. Les analyses déterminent les quantités de 13 composants

trouvés dans chacun de ces 3 types de vins.

3.2 Ses attributs et leurs caractéristiques

La base de données est composée de 13 attributs représentant les 13 composants trouvés dans les

vins. Tous ces attributs sont continus. Elle possède également un attribut qui représente l’identifiant

de classe, c’est-à-dire, de quel vignoble est issu le vin concerné.

Thomas André Manuel Brisville | Data Mining

3.3 Exploration des données

Le langage R permet d’explorer les données du Dataset, de façon individuelle ou

multidimensionnelle.

On peut, par exemple connaitre la distribution des types de vin dans l’ensemble de données et

recourir à une représentation graphique de ces résultats.

La fonction hist() permet d’avoir une

représentation graphique de la distribution d’un

attribut dans l’intervalle de ses valeurs.

Il existe de nombreuses façons de représenter les données, en voici quelques exemples.

Le Boxplot est une représentation graphique de données statistiques. Il s'agit de tracer un rectangle

allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute alors des

segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième

déciles.

Quartile : En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données

triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population.

le 1er quartile sépare les 25 % inférieurs des données ;

le 2e quartile est la médiane de la série ;

le 3e quartile sépare les 25 % supérieurs des données.

Décile : En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données,

triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de

l'échantillon de population.

le seuil du 1er décile sépare le jeu de données entre les 10 % inférieurs et le reste des

données ;

le seuil du 9e décile sépare les 90 % inférieurs des données des 10 % supérieurs.

1 / 11 100%

Documents connexes

titre sur 1 ou 2 lignes maximum

Stage en Data Mining - Machine Learning Group

Fiche-UE_CODE_CR_OPT_DM - LIRIS

Glossaire

8INF954 : Forage de données -Data mining

Affiche - Beaulieu sur Layon

Data Mining : Techniques et Applications

Télécharger le programme de la formation

Data/Pattern Analysis

BOOK :::: THOMAS VANDERCAPPELLEN ...

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Data Mining - DAINF

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Data Mining - DAINF

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib