Expériences sur des données avec une boîte à outils (WEKA) Projet

Téléchargement

Expériences sur des données avec une boîte

à outils (WEKA)

Projet DATA MANING

Réalisé par :IKHIBI Fatima Ezzahra

Soutenu par : Mr Antoine Cornuéjols

Mr Yves Lechevallier

Mr Edwin Diday

Master II ISI Année universitaire 2011-2012

Plan :

Introduction

Méthode d’apprentissage

1-Réseaux de neurones

2-Les arbres de décision

3-Séparateur à vaste marge

4-Boosting

Technique d’évaluation

1- Cross-validation

2- Use training Set

Boite à outils utilisé

Description des de jeux de données :

1- Iris.arf

2- heart-statlog

Expérimentation et analyse

Conclusion

Introduction :

Le travail consiste à tester différents systèmes d'apprentissage à savoir les réseaux de

neurones(PMC), les SVM (SMO) et les arbres de décision (J48) sur quelques bases de

données appropriées sélectionner dans le répertoire UCI et d’examiner comment se comporte

les performances (taux d'erreur, matrice de confusion, ...).

On testera dans un deuxième temps l'effet du boosting sur ces systèmes et sur ces bases de

données. Tout en cherchant à déterminer quels sont les systèmes et les bases de données qui

conduisent, avec boosting, à une amélioration ou à détérioration des performances.

Méthode d’apprentissage :

1-Réseaux de neurones :

L’apprentissage à l'aide de réseaux de neurones est bien adapté pour l'apprentissage à partir de

données complexes (images sur une rétine, sons, ...) mais aussi à partir de données

symboliques. Les entrées peuvent être représentées par de nombreux attributs à valeurs réelles

ou symboliques, les attributs pouvant être dépendants ou non. La ou les sorties peuvent être

réelles ou discrètes. L'apprentissage à l'aide de réseaux de neurones est tolérant au bruit et aux

erreurs. Le temps d'apprentissage peut être long, par contre, après apprentissage, le calcul des

sorties à partir d'un vecteur d'entrée est rapide. La critique principale est que le résultat de

l'apprentissage, c'est-à-dire le réseau de neurones calculé par l'algorithme d'apprentissage,

n'est pas interprétable par l'utilisateur : on ne peut pas donner d'explication au calcul d'une

sortie sur un vecteur d'entrée. On parle de << boîte noire >>. Ceci est la principale différence

entre réseaux de neurones et arbres de décision. Si l'utilisateur a besoin de pouvoir interpréter

le résultat de l'apprentissage, il choisira un système basé sur les arbres de décision, sinon les

deux méthodes sont concurrentes.

On utilisera la méthode perceptron multi-couches (PMC) pour notre analyse, donc on

considère une couche d'entrée qui correspond aux variables d'entrée, une couche de sorties, et

un certain nombre de couches intermédiaires. Les liens n'existent qu'entre les cellules d'une

couche avec les cellules de la couche suivante.

2-Les arbres de décision :

Les arbres de décision permettent de produire des procédures de classification

compréhensibles par l'utilisateur. C'est en particulier le cas pour l'aide au diagnostic médical

où le médecin doit pouvoir interpréter les raisons du diagnostic. Car les arbres de décision

représentent graphiquement un ensemble de règles et sont aisément interprétables. Pour les

arbres de grande taille, la procédure globale peut être difficile à appréhender, cependant, la

classification d'un élément particulier est toujours compréhensible. Les algorithmes

d'apprentissage par arbres de décision sont efficaces, disponibles dans la plupart des

environnements de fouille de données.

On va utiliser J48, qui est une implantation de l'algorithme C4.5.

3- Séparateur à vaste marge (SVM) :

C'est une méthode de classification qui a donnée de bonnes performances dans la résolution

de problèmes variées, elle est adaptée à des ensembles de données de très grandes dimensions.

Cette méthode a montré son efficacité dans de nombreux domaines d'applications tels que la

reconnaissance des formes (burge, 1998),la reconnaissance du locuteur (Kharroubi, 2002), la

catégorisation de textes (Joachims, 1998), le traitement d'images (Zammit, 2008), la

prédiction de séries temporelles, la sélection des variables (El ferchichi et al., 2008) et le

contrôle qualité (bouillant et al., 2003).

Le SVM donne un fort degré de précision, et des bons résultats en généralisation.

Le SVM est plus performante que les réseaux de neurones dans la détection des défauts

lorsque le nombre des échantillons est réduit.

La technique SMO (Sequentiel Minimal Optimisation) est très adaptée grâce a sa rapidité

d’exécution.

4-Boosting :

Une méthode générale pour convertir des règles de prédiction peu performantes en une règle

de prédiction (très) performante.

L’une des premières méthodes mettant en place cette idée est l’algorithme AdaBoost qu’on va

utiliser dans notre analyse.

Techniques d’évaluation :

Cross-validation : pour une valeur K, le jeu est divisé en K partitions. L’une constitue le jeu

de test, les autres forment le jeu d’apprentissage. Ce processus est répété K fois, chaque

partition étant utilisée une fois comme jeu de test. Une valeur de 10 pour K en général

conseillée.

Use training Set : toutes les données servent à la fois à apprendre et à tester les modèles.

Boite à outils utilisé :

Weka est un logiciel libre qui propose un ensemble d’algorithmes d’apprentissage

automatique. Il possède également toute une palette d’outils pour le traitement de données, la

sélection d’attributs, la visualisation de distributions, de modèles et de résultats. Il permet de

faire de la classiﬁcation, de la régression, du clustering et des règles d’associations.

Description des de jeux de données :

•Iris.arf :

Il contient 150 exemples ; chacun est une fleur (un iris) d'une des trois variétés suivantes :

setosa, versicolor et virginica.

La variété représente la classe de la donnée.Chaque donnée est d’écrite par 4 attributs

numériques : longueur et largeur des sépales ; longueur et largeur des pétales.

•heart-statlog.arff :

Une base de données comportant 270 exemples décrits par 14 attributs à valeur continue et

appartenant à 2 classes.

Analyse et résultat :

On va appliquer ces algorithmes d’apprentissage avec et sans boosting,sur nos deux bases de

données.

A)iris.arff :

Les réseaux de neurones :

On va modifier le nombre des neurones de la couche cachée dans Weka en modifiant l’attribut

Hiddenlayer qui permet de décrire le nombre et la taille des couches cachées. La description

est la suivante:

-Soit une suite d’entiers (le nombre de neurones par couche) séparés par des virgules.

-Soit les valeurs spéciales déterminant une seule couche cachée :

– a : (nombre d’attributs+nombre de classes)/2

– i : nombre d’attributs

– o : nombre de classes

– t : nombre d’attributs+nombre de classes

a : (nombre d’attributs+nombre de classes)/2

D’après ce tableau, on voit que 97 ,33% des exemples ont été classés correctement. La

matrice de confusion en bas, indique que les erreurs ont concerné la classe « iris-versicolor »

pour laquelle 48 exemples sur 50 sont correctement classés, et 48 exemples pour «Iris-

vrginica » qui sont correctement classé sur 50 exemples.

t : nombre d’attributs+nombre de classes

o : nombre de classes

1 / 15 100%

Documents connexes

Thème 3B : motricité volontaire et plasticité cérébrale

résumé

Chap 1 bases rappels 2017 Fichier

neurones à la naissance - NCCR

TP 3 DE LA RETINE AU CERVEAU. L`objectif est d`identifier

Diapositive 1

Comparaison de deux maladies neurodégénérative : Maladies

Boosting et sur

Chapitre1 Les réseaux de neurones INTRODUCTION

Titre du projet : Inférence des modifications plastiques dans les

Vie cellulaire et fonctionnement des neurones

Langages Pratique - Franche

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Expériences sur des données avec une boîte à outils (WEKA) Projet

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Expériences sur des données avec une boîte à outils (WEKA) Projet

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib