forêts aléatoires pac-bayésiennes - Collection mémoires et thèses

FORÊTS ALÉATOIRES PAC-BAYÉSIENNES
Mémoire
Brice ZIRAKIZA
Maîtrise en informatique
Maître ès sciences (M.Sc.)
Québec, Canada
© Brice ZIRAKIZA, 2013
R´esum´e
Dans ce m´emoire de maˆıtrise, nous pr´esentons dans un premier temps un algorithme
de l’´etat de l’art appel´e Forˆets al´eatoires introduit par L´eo Breiman. Cet algorithme
effectue un vote de majorit´e uniforme d’arbres de d´ecision construits en utilisant l’algo-
rithme CART sans ´elagage. Par apr`es, nous introduisons l’algorithme que nous avons
nomm´e SORF. L’algorithme SORF s’inspire de l’approche PAC-Bayes, qui pour mini-
miser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs
avec un r´egularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonc-
tion convexe bornant sup´erieurement le risque du classificateur de Bayes. Pour chercher
la distribution qui pourrait ˆetre optimale, l’algorithme SORF se r´eduit `a ˆetre un simple
programme quadratique minimisant le risque quadratique de Gibbs pour chercher une
distribution Qsur les classificateurs de base qui sont des arbres de la forˆet. Les r´esul-
tasts empiriques montrent que g´en´eralement SORF est presqu’aussi bien performant
que les forˆets al´eatoires, et que dans certains cas, il peut mˆeme mieux performer que
les forˆets al´eatoires.
iii
Abstract
In this master’s thesis, we present at first an algorithm of the state of the art called Ran-
dom Forests introduced by L´eo Breiman. This algorithm construct a uniformly weighted
majority vote of decision trees built using the CART algorithm without pruning. The-
reafter, we introduce an algorithm that we called SORF. The SORF algorithm is based
on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier,
minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier
is indeed a convex function which is an upper bound of the risk of Bayes classifier. To
find the distribution that would be optimal, the SORF algorithm is reduced to being
a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a
distribution Qof base classifiers which are trees of the forest. Empirical results show
that generally SORF is almost as efficient as Random forests, and in some cases, it can
even outperform Random forests.
v
1 / 98 100%

forêts aléatoires pac-bayésiennes - Collection mémoires et thèses

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !