TD Apprentissage Automatique
Partie I : premi`eres exp´erimentations
L’objectif de ces Travaux Dirig´es est d’acqu´erir une premi`ere exp´erience pratique des algorithmes
pr´esent´es dans le cours d’Apprentissage Automatique en utilisant le logiciel WEKA.
Cette premi`ere partie propose de prendre en main le logiciel d’apprentissage et de fouille de donn´ees
WEKA d´evelopp´e par Witten et Frank∗(version stable 3.6). La prise en main s’effectuera en trois
´etapes :
1 Premiers pas
Le logiciel WEKA et le format de donn´ees ARFF sont pr´esent´es. Si cela n’est pas d´ej`a fait, le
logiciel doit ensuite ˆetre t´el´echarg´e `a l’adresse suivante : http://www.cs.waikato.ac.nz/ml/weka/.
Il est disponible sur les plate-formes Windows et UNIX. Sous linux, il est fourni sous la forme d’une
archive JAR et peut donc ˆetre ex´ecut´e sans probl`eme sur la machine locale.
Vous avez un peu de temps pour prendre en main le logiciel. Pour cela, vous effectuerez les ´etapes
suivantes :
1. Copiez le fichier weather.nominal.arff sur votre bureau. Il se trouve dans le r´epertoire /bin
de WEKA.
2. Ouvrez-le avec un simple ´editeur de texte et regardez comment il est constitu´e.
3. Chargez-le en m´emoire avec WEKA (utilisez la version “explorer”).
4. Visualisez la distribution des donn´ees.
5. Rendez-vous dans l’onglet “classify” et choisissez l’algorithme Id3 de “trees”.
6. Cliquez sur “Use training set” et lancez l’algorithme.
7. Analysez et cherchez `a comprendre la sortie du classifieur. O`u se trouve l’arbre de d´ecision ? O`u
se trouve le temps pris par l’algorithme d’apprentissage ? etc.
8. Revenez dans l’onglet “Prepocess” et essayez plusieurs techniques de pr´etraitements propos´ees
par WEKA (suppression ou ajout d’un attribut, etc.).
9. Chargez cette fois le fichier weather.arff et essayez de relancer l’algorithme Id3. Que se passe-
t-il et pourquoi ? Utilisez un pr´etraitement sur ce jeu de donn´ees pour pouvoir appliquer l’algo-
rithme Id3. Comparez les r´esultats avec ceux obtenus sur weather.nominal.
2 Etude comparative
A pr´esent que vous avez pris en main le logiciel WEKA, l’objectif qui vous est fix´e est d´ecrit
ci-dessous :
1. Choisissez 3 jeux de donn´ees “jouet”, d´ej`a traduites au format ARFF et fournies avec le logiciel
sur la dizaine fournies. Ces bases devront pr´esenter des caract´eristiques diff´erentes en fonction
de la taille de l’´echantillon, de la taille et de la nature du langage de description, de la pr´esence
ou non de donn´ees manquantes, etc. Attention : ces bases doivent n´ecessairement comporter
un attribut “classe” (le dernier attribut d´ecrit) de nature nominal poss´edant un nombre fini de
valeur. Il ne s’agit pas d’une tˆache de r´egression, mais de classification.
Vous utiliserez, pour d´ecrire ces caract´eristiques, un format comme celui ci-dessous :
nom de la base n m type µetc.
. . .
Master 2`ere ann´ee ECD – Universit´e Lumi`ere (Lyon 2) c
2013
Responsable du cours : Julien Velcin