Expériences sur des données avec une boîte à outils (WEKA) Projet

Expériences sur des données avec une boîte
à outils (WEKA)
Projet DATA MANING
Réalisé par :IKHIBI Fatima Ezzahra
Soutenu par : Mr Antoine Cornuéjols
Mr Yves Lechevallier
Mr Edwin Diday
Master II ISI Année universitaire 2011-2012
Plan :
Introduction
Méthode d’apprentissage
1-Réseaux de neurones
2-Les arbres de décision
3-Séparateur à vaste marge
4-Boosting
Technique d’évaluation
1- Cross-validation
2- Use training Set
Boite à outils utilisé
Description des de jeux de données :
1- Iris.arf
2- heart-statlog
Expérimentation et analyse
Conclusion
Introduction :
Le travail consiste à tester différents systèmes d'apprentissage à savoir les réseaux de
neurones(PMC), les SVM (SMO) et les arbres de décision (J48) sur quelques bases de
données appropriées sélectionner dans le répertoire UCI et d’examiner comment se comporte
les performances (taux d'erreur, matrice de confusion, ...).
On testera dans un deuxième temps l'effet du boosting sur ces systèmes et sur ces bases de
données. Tout en cherchant à déterminer quels sont les systèmes et les bases de données qui
conduisent, avec boosting, à une amélioration ou à détérioration des performances.
Méthode d’apprentissage :
1-Réseaux de neurones :
L’apprentissage à l'aide de réseaux de neurones est bien adapté pour l'apprentissage à partir de
données complexes (images sur une rétine, sons, ...) mais aussi à partir de données
symboliques. Les entrées peuvent être représentées par de nombreux attributs à valeurs réelles
ou symboliques, les attributs pouvant être dépendants ou non. La ou les sorties peuvent être
réelles ou discrètes. L'apprentissage à l'aide de réseaux de neurones est tolérant au bruit et aux
erreurs. Le temps d'apprentissage peut être long, par contre, après apprentissage, le calcul des
sorties à partir d'un vecteur d'entrée est rapide. La critique principale est que le résultat de
l'apprentissage, c'est-à-dire le réseau de neurones calculé par l'algorithme d'apprentissage,
n'est pas interprétable par l'utilisateur : on ne peut pas donner d'explication au calcul d'une
sortie sur un vecteur d'entrée. On parle de << boîte noire >>. Ceci est la principale différence
entre réseaux de neurones et arbres de décision. Si l'utilisateur a besoin de pouvoir interpréter
le résultat de l'apprentissage, il choisira un système basé sur les arbres de décision, sinon les
deux méthodes sont concurrentes.
On utilisera la méthode perceptron multi-couches (PMC) pour notre analyse, donc on
considère une couche d'entrée qui correspond aux variables d'entrée, une couche de sorties, et
un certain nombre de couches intermédiaires. Les liens n'existent qu'entre les cellules d'une
couche avec les cellules de la couche suivante.
2-Les arbres de décision :
Les arbres de décision permettent de produire des procédures de classification
compréhensibles par l'utilisateur. C'est en particulier le cas pour l'aide au diagnostic médical
le médecin doit pouvoir interpréter les raisons du diagnostic. Car les arbres de décision
représentent graphiquement un ensemble de règles et sont aisément interprétables. Pour les
arbres de grande taille, la procédure globale peut être difficile à appréhender, cependant, la
classification d'un élément particulier est toujours compréhensible. Les algorithmes
d'apprentissage par arbres de décision sont efficaces, disponibles dans la plupart des
environnements de fouille de données.
On va utiliser J48, qui est une implantation de l'algorithme C4.5.
3- Séparateur à vaste marge (SVM) :
C'est une méthode de classification qui a donnée de bonnes performances dans la résolution
de problèmes variées, elle est adaptée à des ensembles de données de très grandes dimensions.
Cette méthode a montré son efficacité dans de nombreux domaines d'applications tels que la
reconnaissance des formes (burge, 1998),la reconnaissance du locuteur (Kharroubi, 2002), la
catégorisation de textes (Joachims, 1998), le traitement d'images (Zammit, 2008), la
prédiction de séries temporelles, la sélection des variables (El ferchichi et al., 2008) et le
contrôle qualité (bouillant et al., 2003).
Le SVM donne un fort degré de précision, et des bons résultats en généralisation.
Le SVM est plus performante que les réseaux de neurones dans la détection des défauts
lorsque le nombre des échantillons est réduit.
La technique SMO (Sequentiel Minimal Optimisation) est très adaptée grâce a sa rapidité
d’exécution.
4-Boosting :
Une méthode générale pour convertir des règles de prédiction peu performantes en une règle
de prédiction (très) performante.
L’une des premières méthodes mettant en place cette idée est l’algorithme AdaBoost qu’on va
utiliser dans notre analyse.
Techniques d’évaluation :
Cross-validation : pour une valeur K, le jeu est divisé en K partitions. L’une constitue le jeu
de test, les autres forment le jeu d’apprentissage. Ce processus est répété K fois, chaque
partition étant utilisée une fois comme jeu de test. Une valeur de 10 pour K en général
conseillée.
Use training Set : toutes les données servent à la fois à apprendre et à tester les modèles.
Boite à outils utilisé :
Weka est un logiciel libre qui propose un ensemble d’algorithmes d’apprentissage
automatique. Il possède également toute une palette d’outils pour le traitement de données, la
sélection d’attributs, la visualisation de distributions, de modèles et de résultats. Il permet de
faire de la classification, de la régression, du clustering et des règles d’associations.
Description des de jeux de données :
Iris.arf :
Il contient 150 exemples ; chacun est une fleur (un iris) d'une des trois variétés suivantes :
setosa, versicolor et virginica.
La variété représente la classe de la donnée.Chaque donnée est d’écrite par 4 attributs
numériques : longueur et largeur des sépales ; longueur et largeur des pétales.
heart-statlog.arff :
Une base de données comportant 270 exemples décrits par 14 attributs à valeur continue et
appartenant à 2 classes.
Analyse et résultat :
On va appliquer ces algorithmes d’apprentissage avec et sans boosting,sur nos deux bases de
données.
A)iris.arff :
Les réseaux de neurones :
On va modifier le nombre des neurones de la couche cachée dans Weka en modifiant l’attribut
Hiddenlayer qui permet de décrire le nombre et la taille des couches cachées. La description
est la suivante:
-Soit une suite d’entiers (le nombre de neurones par couche) séparés par des virgules.
-Soit les valeurs spéciales déterminant une seule couche cachée :
– a : (nombre d’attributs+nombre de classes)/2
– i : nombre d’attributs
– o : nombre de classes
– t : nombre d’attributs+nombre de classes
a : (nombre d’attributs+nombre de classes)/2
D’après ce tableau, on voit que 97 ,33% des exemples ont été classés correctement. La
matrice de confusion en bas, indique que les erreurs ont concerné la classe « iris-versicolor »
pour laquelle 48 exemples sur 50 sont correctement classés, et 48 exemples pour «Iris-
vrginica » qui sont correctement classé sur 50 exemples.
t : nombre d’attributs+nombre de classes
o : nombre de classes
1 / 15 100%

Expériences sur des données avec une boîte à outils (WEKA) Projet

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !