4
L’algorithme renvoie un résumé des résultats obtenus. puis le détail de l’efficacité de
l’algorithme par classe et enfin la matrice de confusion.
1) L’algorithme OneR choisit un seul attribut et choisit de classer en fonction de celui-ci.
Lancez l’algorithme OneR sur le jeu de données. Quel est le taux de réussite de l’algorithme?
L’attribut choisi est-il le même que celui que vous aviez choisi avec la visualisation ?
2) Les classifieurs sont classés en 7 classes
– bayes : comporte notamment naïve Bayes et les réseaux Bayesiens ;
– functions : comporte les réseaux de neurones, les régressions linéaires... ;
– lazy : comporte IB1 (le plus proche voisin) et IBk (les k plus proches voisins) ;
– meta : comporte des algorithmes comme le Boosting notamment AdaBoost ;
– misc : Divers algorithmes exotiques ;
– trees : contient ID3 et C4.5 (C4.5 est sous le nom J48) ;
– rules : des règles d’apprentissages comme le choix de la classe majoritaire ou apprendre
en utilisant un unique attribut.
3) Essayez chacun des algorithmes décrits en explorant les paramètres de chacun des
algorithmes. En particulier testez le comportement de ID3,J48 et de naïve Bayes.
4) Expliquez et constatez les différentes options de tests, c’est-à-dire :
– utiliser l’ensemble d’apprentissage comme ensemble test ;
– utiliser un ensemble donné ;
– utiliser de la validation croisée ;
– utiliser une découpe de l’échantillon d’apprentissage.
(a) Expliquez les problèmes liés à l’utilisation de l’ensemble d’apprentissage pour
l’ensemble qui permet d’effectuer les tests de qualité de l’apprentissage.
(b) Expliquez pourquoi il vaut parfois mieux utiliser la découpe de l’ensemble
d’apprentissage que de la validation croisée.
(c) Qu’est-ce que faire de la validation croisée où le nombre de "Folds" est égal
au nombre d’instances ?
4.5. Est-ce que les instances qui posent problèmes sont souvent les mêmes ? Par exemple
entre ID3, J48 et NaiveBayes. Préférez le mode percentage split pour faire cette
vérification.
6- Étude approfondie des filtres de prétraitement
1) Établissez un protocole qui permet de montrer qu’un filtre est utile pour un classifieur
donné.
2) Vous allez évaluez différents filtres pour le classifieur J48 en utilisant votre protocole.
(a) Quels sont les filtres qui semblent les plus intéressant pour J48 et pourquoi ?
(b) Quels sont les filtres pour lesquels vous ne ferez pas de tests et pourquoi ?
(c) Quels sont les filtres les plus efficaces ?
(d) Les résultats sont-ils étonnant ?
7- choix d’attributs
Lorsque des classifications sont effectuées, dans la zone Result list, en cliquant avec le
bouton droit, une liste d’options apparaissent. En particulier il y a l’option visualize
classifier errors qui permet d’enter en mode visualisation et qui encadre les
instances erronées.
Une autre façon de constater ce qui s’est produit est de cliquer sur le bouton More
options.... Une fenêtre d’option s’ouvre dans laquelle on peut choisir l’option Output
predictions
Lorsque le nombre de données est trop grand ou que l’algorithme d’apprentissage à
utiliser demande trop de ressources, il est souvent nécessaire de sacrifier de l’information
pour gagner du temps de calcul. Se pose alors la question du choix des informations à
éliminer.