![](//s1.studylibfr.com/store/data-gzf/1a24fa851161239123432439f825551d/1/004951965.htmlex.zip/bg2.jpg)
1. Dans votre répertoire, chargez (load) la base de données heart_disease.arff. Vous la trou-
verez à l’url :
http://www.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Erasmus-IT4BI/
datasets/heart\_disease.arff.
2. En utilisant l’outil de visualisation‘Visualize’ de Weka, familiarisez-vous avec les données.
Combien y a-t-il de descripteurs ? Quel est la cible ?
3. Nous allons comparer sur ces bases de données :
– L’algorithme d’inférence d’arbres de décision à un nœud DecisionStump.
–J48 qui est l’implémentation Weka de l’algorithme C4.5, l’un des algorithmes d’appren-
tissage d’arbres de décision les plus utilisés. Vous essaierez plusieurs valeurs pour les
paramètres ‘ConfidenceFactor (qui contrôle le niveau d’élagage : l’élagage est plus
prononcé avec des petites valeurs de ce paramètre) ; ‘minNumObj ’ (le nombre minimum
d’exemples par feuille) ; ‘unpruned’ (fait de l’élagage si mis à false).
–SMO. Vous avez déjà normalement fait des essais avec cet algorithme. Utilisez SMO aussi
sur la base de données heart_disease.arff.
Vous pourrez aussi utiliser, si le temps le permet, l’un ou les deux algorithmes suivants :
– ‘AdaBoostM1’. Un meta-algorithme qui peut utiliser n’importe lequel des classifieurs pré-
cédents comme classifieur faible. Le paramètre de contrôle est le nombre d’itérations.
Faites le varier pour voir comment cela influe sur le taux d’erreur en test.
AdaBoostM1 (dans le menu meta) avec DecisionStump comme classifieurs faibles. Mettre
‘debug = True’ afin de voir les poids des classifieurs faibles.
– ‘randomForest’. L’algorithme de forêts aléatoires qui est une forme de boosting avec
arbres de décision.
4. Résumez les résultats obtenus dans un tableau. Utilisez la validation croisée à 5 ou 10 plis.
Observez le taux d’erreur. Et regardez aussi la matrice de confusion.
5. Quelles sont vos conclusions sur l’utilisation des différents systèmes de classification super-
visé ?
3.1 La base de données ‘optdiggits_0_8_9’
Observez bien la nature des données.
1. Combien y a t-il de descripteurs ?
2. Que décrivent-ils ?
3. Quel est le nombre de classes ? À quoi correspondent-elles ?
4. Si vous dessinez une lettre sur une matrice 8 ×8, que devraient être selon vous les des-
cripteurs les plus importants pour reconnaître des lettres ?
5. Est-ce que cela est confirmé quand vous utilisez l’outil de visualisation ‘Visualize’ pour
étudier la distribution et la corrélation des descripteurs ?
6. À l’aide d’expériences avec les classifieurs étudiés, quelles sont les calsses les plus faciles à
discriminer, quelles sont celles qui posent le plus de problème ?
2