TD Apprentissage Automatique
Partie I : premi`eres exp´erimentations
L’objectif de ces Travaux Dirig´es est d’acqu´erir une premi`ere exp´erience pratique des algorithmes
pr´esent´es dans le cours d’Apprentissage Automatique en utilisant le logiciel WEKA.
Cette premi`ere partie propose de prendre en main le logiciel d’apprentissage et de fouille de donn´ees
WEKA d´evelopp´e par Witten et Frank(version stable 3.6). La prise en main s’effectuera en trois
´etapes :
1 Premiers pas
Le logiciel WEKA et le format de donn´ees ARFF sont pr´esent´es. Si cela n’est pas d´ej`a fait, le
logiciel doit ensuite ˆetre t´el´echarg´e `a l’adresse suivante : http://www.cs.waikato.ac.nz/ml/weka/.
Il est disponible sur les plate-formes Windows et UNIX. Sous linux, il est fourni sous la forme d’une
archive JAR et peut donc ˆetre ex´ecut´e sans probl`eme sur la machine locale.
Vous avez un peu de temps pour prendre en main le logiciel. Pour cela, vous effectuerez les ´etapes
suivantes :
1. Copiez le fichier weather.nominal.arff sur votre bureau. Il se trouve dans le r´epertoire /bin
de WEKA.
2. Ouvrez-le avec un simple ´editeur de texte et regardez comment il est constitu´e.
3. Chargez-le en m´emoire avec WEKA (utilisez la version “explorer”).
4. Visualisez la distribution des donn´ees.
5. Rendez-vous dans l’onglet “classify” et choisissez l’algorithme Id3 de “trees”.
6. Cliquez sur “Use training set” et lancez l’algorithme.
7. Analysez et cherchez `a comprendre la sortie du classifieur. O`u se trouve l’arbre de d´ecision ? O`u
se trouve le temps pris par l’algorithme d’apprentissage ? etc.
8. Revenez dans l’onglet “Prepocess” et essayez plusieurs techniques de pr´etraitements propos´ees
par WEKA (suppression ou ajout d’un attribut, etc.).
9. Chargez cette fois le fichier weather.arff et essayez de relancer l’algorithme Id3. Que se passe-
t-il et pourquoi ? Utilisez un pr´etraitement sur ce jeu de donn´ees pour pouvoir appliquer l’algo-
rithme Id3. Comparez les r´esultats avec ceux obtenus sur weather.nominal.
2 Etude comparative
A pr´esent que vous avez pris en main le logiciel WEKA, l’objectif qui vous est fix´e est d´ecrit
ci-dessous :
1. Choisissez 3 jeux de donn´ees “jouet”, d´ej`a traduites au format ARFF et fournies avec le logiciel
sur la dizaine fournies. Ces bases devront pr´esenter des caract´eristiques diff´erentes en fonction
de la taille de l’´echantillon, de la taille et de la nature du langage de description, de la pr´esence
ou non de donn´ees manquantes, etc. Attention : ces bases doivent n´ecessairement comporter
un attribut “classe” (le dernier attribut d´ecrit) de nature nominal poss´edant un nombre fini de
valeur. Il ne s’agit pas d’une tˆache de r´egression, mais de classification.
Vous utiliserez, pour d´ecrire ces caract´eristiques, un format comme celui ci-dessous :
nom de la base n m type µetc.
. . .
Master 2`ere ann´ee ECD – Universit´e Lumi`ere (Lyon 2) c
2013
Responsable du cours : Julien Velcin
o`u ncorrespond `a la taille de l’´echantillon d’apprentissage, mau nombre d’attributs, “type” `a
la nature (symbolique et/ou num´erique) des attributs, µau pourcentage de valeurs manquantes,
etc. N’h´esitez pas `a ajouter vos propres caract´eristiques et `a commenter le choix de vos jeux de
donn´ees.
2. Vous utiliserez ensuite les algorithmes d’apprentissage supervis´e propos´es par le logiciel :
– NaiveBayesSimple
– NaiveBayes
– Id3
– J48
– DecisionStump
MultilayerPerceptron (essayez l’interface graphique)
– VotedPerceptron
SMO (machines `a vecteurs supports)
IBk (k-plus-proches-voisins)
– Bagging
– AdaBoost
Si vous ne connaissez pas le fonctionnement pr´ecis de l’un de ces algorithmes, n’h´esitez pas `a
aller consulter sa description (bouton “More”). Attention, la plupart de ces algorithmes ont des
param`etres qu’il vous faudra prendre en compte lors de vos exp´erimentations. Vous en choisirez
quelques-uns que vous ferez varier afin d’observer l’effet pratique de ces param`etres sur les
r´esultats obtenues (par exemple kpour les k-plus-proches-voisins ou le nombre de neurones dans
la couche cach´e pour le perceptron multi-couches).
3. L’objectif est `a pr´esent de comparer les r´esultats obtenus `a l’aide des diff´erents algorithmes
donn´es ci-dessus sur chacun des 3 jeux de donn´ees choisis. Ces comparaisons s’appuiront sur :
l’erreur apparente sur le jeu d’entraˆınement (training set),
l’estimation de l’erreur r´eelle par cross-validation (avec 5, 10 et 20 folds),
le temps d’ex´ecution de l’algorithme d’apprentissage,
tout crit`ere suppl´ementaire que vous jugerez n´ecessaire (interpr´etabilit´e, etc.).
Certains algorithmes ne sont pas utilisables sur certains jeux de donn´ees. Il faudra le pr´eciser et
´eventuellement expliquer pourquoi.
4. Une fois que vous aurez termin´e cette partie, vous pouvez vous rendre sur le site du r´epertoire
UCI afin de trouver le jeu de donn´ees sur lequel vous souhaitez travailler :
http://mlearn.ics.uci.edu/MLRepository.html
Bien entendu, vous pouvez proposer d’autres jeux de donn´ees `a condition d’en parler avec votre
encadrant local.
Ian H. Witten and Eibe Frank (2005) ”Data Mining : Practical machine learning tools and techniques”, 2nd
Edition, Morgan Kaufmann, San Francisco, 2005.
2
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !