Expériences sur les données du répertoire de données de UCI avec TANAGRA
1. Introduction
La classification est une procédure permettant d’affecter un objet à
la famille à laquelle il appartient. Le but de ce travail est de tester la
performance des méthodes d’apprentissage supervisé (taux d’erreur,
matrice de confusion) telles que les réseaux de neurones, les arbres de
décision et les séparateurs à vaste marge ainsi que l’effet du Boosting
sur ses algorithmes. J’ai ici choisi de tester des données du répertoire
UCI à travers l’outil Tanagra. Les jeux de données sélectionnés sont
différents en nombre et type d’attributs descriptifs, taille et classe à
prédire.
2. Cadre théorique
a. Méthode d’apprentissage
i. Arbre de Décision
« Un outil d'aide à la décision et à l'exploration de
données. Il permet de modéliser simplement,
graphiquement et rapidement un phénomène mesuré
plus ou moins complexe. Sa lisibilité, sa rapidité
d'exécution et le peu d'hypothèses nécessaires a priori
expliquent sa popularité actuelle. »
ii. Séparateurs à vaste marge (SVM) : « Technique
d’apprentissage avec professeur destinées à résoudre
des problèmes de discrimination et de régression »