Expériences sur les données du répertoire de données de UCI

Téléchargement

Expériences sur les données du

répertoire de données de UCI

avec TANAGRA

Réalisé par : MOHAMED BEN SAAD

Soutenu par : M. Antoine Cornuéjols

M. Yves Lechevallier

M. Edwin Diday

Expériences sur les données du répertoire de données de UCI avec TANAGRA

PLAN

1. Introduction

2. Cadre théorique

a. Méthode d’apprentissage.

i. Arbre de Décision

ii. Séparateurs à vaste marge

iii. Réseaux de Neurones

iv. Boosting

b. Méthode de validation.

i. Estimation par validation croisée

ii. Utilisation d’un échantillon de test

3. Jeux de données et Outils

4. Expérimentation et Analyse

a. La base de données Haberman's Survival

b. La base de données Vehicule

c. La base de données letter-recognition

5. Tableau récapitulatif

6. Conclusion

Expériences sur les données du répertoire de données de UCI avec TANAGRA

1. Introduction

La classification est une procédure permettant d’affecter un objet à

la famille à laquelle il appartient. Le but de ce travail est de tester la

performance des méthodes d’apprentissage supervisé (taux d’erreur,

matrice de confusion) telles que les réseaux de neurones, les arbres de

décision et les séparateurs à vaste marge ainsi que l’effet du Boosting

sur ses algorithmes. J’ai ici choisi de tester des données du répertoire

UCI à travers l’outil Tanagra. Les jeux de données sélectionnés sont

différents en nombre et type d’attributs descriptifs, taille et classe à

prédire.

2. Cadre théorique

a. Méthode d’apprentissage

i. Arbre de Décision

« Un outil d'aide à la décision et à l'exploration de

données. Il permet de modéliser simplement,

graphiquement et rapidement un phénomène mesuré

plus ou moins complexe. Sa lisibilité, sa rapidité

d'exécution et le peu d'hypothèses nécessaires a priori

expliquent sa popularité actuelle. »

ii. Séparateurs à vaste marge (SVM) : « Technique

d’apprentissage avec professeur destinées à résoudre

des problèmes de discrimination et de régression »

Expériences sur les données du répertoire de données de UCI avec TANAGRA

iii. Réseaux de Neurones (RN) : Une méthode d’apprentissage

supervisé, souvent utilisé pour des problèmes de

classification et de généralisation (reconnaissance de

formes, des codes postaux, approximation d’une

fonction inconnue).

iv. Boosting : « domaine de l’apprentissage automatique. Il

permet d’optimiser les performances des méthodes

d’apprentissage ».

b. Méthodes d’évaluation :

i. Estimation par validation croisée : (K-fold cross-validation)

C’est une méthode qui permet de prédire la

performance de la classification. Son mécanisme est

donné par les étapes suivantes :

 Partitionner l’ensemble d’apprentissage en k

partitions égales

 Appliquer l’apprentissage sur les k-1 partitions et

utiliser la kème partition pour tester.

 Répéter ce processus k fois selon la permutation

circulaire

Ainsi, l’erreur obtenue sera égale à la somme des

erreurs trouvées dans les partitions

ii. Utilisation d’un échantillon de test : c’est la méthode la plus

simple. Elle consiste à subdiviser l’ensemble des

Expériences sur les données du répertoire de données de UCI avec TANAGRA

exemples en deux ensembles indépendants : T (Test

Set) et A (Training Set). Le nombre d’erreurs.

3. Jeux de données et Outils

J’ai choisi d’utiliser le logiciel Tanagra (Ver 1.4.42) pour son

aspect ergonomique afin de tester les algorithmes. Il faut aussi noter la

préparation des données récupérées par la création d’un fichier .arff et

la structuration par :

Les commandes (@relation,@attribute,@Data..).D’où les jeux de

données utilisées, sont décrits comme suit :

La première Haberman's Survival qui concerne une étude sur la

survie des patients ayant subi une chirurgie du cancer du sein entre

1958 et 1970 aux USA. Elle est composée de 4 attributs et 306

exemples.

La deuxième letter-recognition décrite par 17 attributs et 20000

exemples dont l’objectif est d’identifier les 26 lettres majuscules de

l’alphabet.

La troisième Vehicule lié à une étude des voitures. Elle est

composée de 19 attributs et 846 exemples.

1 / 18 100%

Documents connexes

TANAGRA : un logiciel gratuit pour l

est gratuit!

TD3 - LIFL

Équipes Cyclo-cross UCI 2017-2018 Avantages

Système d`exploitation

Un outil unique du CEE-UQAC pour aider les

Boosting et sur

ressources documentaires - CSMO-ÉSAC

7-Zip 7-Zip est un logiciel gratuit d`archivage de fichiers avec un taux

Architecture d`un ordinateur - Fichier - Dossier

Le traitement des DRS, que ce soit via le canal Web (SP10) ou via le

Expériences sur les données du répertoire de données de UCI

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Expériences sur les données du répertoire de données de UCI

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Expériences sur les données du répertoire de données de UCI

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib