forêts aléatoires pac-bayésiennes - Collection mémoires et thèses

FORÊTS ALÉATOIRES PAC-BAYÉSIENNES

Mémoire

Brice ZIRAKIZA

Maîtrise en informatique

Maître ès sciences (M.Sc.)

Québec, Canada

R´esum´e

Dans ce m´emoire de maˆıtrise, nous pr´esentons dans un premier temps un algorithme

de l’´etat de l’art appel´e Forˆets al´eatoires introduit par L´eo Breiman. Cet algorithme

eﬀectue un vote de majorit´e uniforme d’arbres de d´ecision construits en utilisant l’algo-

rithme CART sans ´elagage. Par apr`es, nous introduisons l’algorithme que nous avons

nomm´e SORF. L’algorithme SORF s’inspire de l’approche PAC-Bayes, qui pour mini-

miser le risque du classiﬁcateur de Bayes, minimise le risque du classiﬁcateur de Gibbs

avec un r´egularisateur. Le risque du classiﬁcateur de Gibbs constitue en eﬀet, une fonc-

tion convexe bornant sup´erieurement le risque du classiﬁcateur de Bayes. Pour chercher

la distribution qui pourrait ˆetre optimale, l’algorithme SORF se r´eduit `a ˆetre un simple

programme quadratique minimisant le risque quadratique de Gibbs pour chercher une

distribution Qsur les classiﬁcateurs de base qui sont des arbres de la forˆet. Les r´esul-

tasts empiriques montrent que g´en´eralement SORF est presqu’aussi bien performant

que les forˆets al´eatoires, et que dans certains cas, il peut mˆeme mieux performer que

les forˆets al´eatoires.

iii

Abstract

In this master’s thesis, we present at ﬁrst an algorithm of the state of the art called Ran-

dom Forests introduced by L´eo Breiman. This algorithm construct a uniformly weighted

majority vote of decision trees built using the CART algorithm without pruning. The-

reafter, we introduce an algorithm that we called SORF. The SORF algorithm is based

on the PAC-Bayes approach, which in order to minimize the risk of Bayes classiﬁer,

minimizes the risk of the Gibbs classiﬁer with a regularizer. The risk of Gibbs classiﬁer

is indeed a convex function which is an upper bound of the risk of Bayes classiﬁer. To

ﬁnd the distribution that would be optimal, the SORF algorithm is reduced to being

a simple quadratic program minimizing the quadratic risk of Gibbs classiﬁer to seek a

distribution Qof base classiﬁers which are trees of the forest. Empirical results show

that generally SORF is almost as eﬃcient as Random forests, and in some cases, it can

even outperform Random forests.

v

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

forêts aléatoires pac-bayésiennes - Collection mémoires et thèses

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

forêts aléatoires pac-bayésiennes - Collection mémoires et thèses

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib