rapport aux outils compilés (comme Multiclass). Professeur Ricco Rakotomalala 10 a bien
confirmé cette hypothèse dans ces études 11 portant sur la performance des logiciels libres
avec des fichiers volumineux.
Remarque : Les expériences ont été effectuées sur une machine intel (R) core (TM) i3à
2.40 GHZ avec 4 GB de mémoire vive.
Les résultats sont nettement meilleures avec les classifieurs faibles de type arbres de
décision par rapport au stump. Cela revient essentiellement à sa nature : arbre de décision à
un seul niveau de profondeur. Il empêche de trouver une hypothèse adaptée pour modéliser
le problème. Ainsi, le stump ne permet pas de capturer les corrélations entre les attributs.
Donc la performance de Boosting dépend en grande partie du classifieur faible utilisé pour
apprendre les différentes hypothèses ou conditions de base. L’influence des paramètres sera
clarifiée dans la prochaine section.
4 La comparaison des méthodes d’apprentissage
Dans cette section, nous analysons une situation que l’on rencontre souvent dans la pra-
tique : on dispose de données d’apprentissage et on cherche quel est l’algorithme à appliquer
parmi la panoplie disponible. Les questions qu’on peut se poser : comment interpréter la
différence de performance mesurée empiriquement entre deux algorithmes ? Autrement dit,
est ce qu’un algorithme dont la performance en taux d’erreur de classification vaut e1est
meilleur qu’un autre dont la performance mesurée est e2? Afin d’éliminer la variance due à
la différence entre les échantillons, on utilisera un même corpus.
On peut faire un simple filtrage : Si on dispose des données et des étiquettes que l’on désire
à ce moment là, on choisit l’une des méthodes supervisées (arbres de décision, réseau de
neurones, SVM, Boosting,...). Sinon (les étiquettes ne sont pas fournies) on applique l’un des
algorithmes non supervisés (algorithme k-moyennes, méthodes hiérarchiques, etc). Dans le
cas non supervisé, on présente seulement les données à notre modèle et on le laisse évaluer
jusqu’à ce qu’il se stabilise.
Puisqu’on connait les classes de nos données (voir section 2.2), on va appliquer les méthodes
d’apprentissage supervisées.
Le tableau récapitulatif (représenté dans la figure 5) est le fruit d’une série d’expériences.
La conclusion que j’ ai déduite : il n’est pas évident de comparer deux algorithmes. En effet,
la performance mesurée dépend de plusieurs paramètres, par exemple
– le boosting dépend de la technique utilisée pour effectuer les combinaisons ainsi que
du classifieur faible mis en œuvre.
– les SVMs dépendent des fonctions de noyau.
– les réseaux de neurones dépendent de l’architecture (i.e nombre de couches cachées, le
nombre de neurones dans une couche et leur interconnexion) utilisée.
Cela est bien confirmée dans le tableau (représenté dans la figure 5), il suffit de procéder
au changement de la fonction noyau, dans le cas SVM, d’ailleurs le taux d’erreur est passé
10. http://eric.univ-lyon2.fr/~ricco/
11. http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Perfs_Comp_SVM.pdf
5