Application to the Recognition of Images of Handwritten Digits

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

UNIVERSITÉ DU QUÉBEC

THÈSE PRÉSENTÉE À

L’ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

COMME EXIGENCE PARTIELLE

À L’OBTENTION DU

DOCTORAT EN GÉNIE

PH.D.

PAR

NEDJEM EDDINE AYAT

SÉLECTION DE MODÈLE AUTOMATIQUE DES MACHINES À VECTEURS DE

SUPPORT: APPLICATION À LA RECONNAISSANCE D’IMAGES DE CHIFFRES

MANUSCRITS.

MONTRÉAL, LE 20 JANVIER 2004

c

droits réservés de Nedjem Eddine Ayat

CETTE THÈSE A ÉTÉ ÉVALUÉE

PAR UN JURY COMPOSÉ DE :

M. Mohamed Cheriet, directeur de recherche

Département de génie de la production automatisée à l’École de Technologie Supérieure.

M. Ching Y. Suen, codirecteur

Centre for Pattern Recognition and Machine Intelligence, Concordia University.

M. Richard Lepage, président du jury

Département de génie de la production automatisée à l’École de Technologie Supérieure.

M. Alain Biem, examinateur externe

IBM at Watson Research Center, N.Y, USA.

M. Amar Mitiche, examinateur

Institut National de Recherche Scientiﬁque, Université du Québec.

ELLE A FAIT L’OBJET D’UNE SOUTENANCE DEVANT JURY ET PUBLIC

LE 10 DÉCEMBRE 2003

À L’ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

SÉLECTION DE MODÈLE AUTOMATIQUE DES MACHINES À VECTEURS

DE SUPPORT: APPLICATION À LA RECONNAISSANCE D’IMAGES DE

CHIFFRES MANUSCRITS.

Nedjem Eddine Ayat

SOMMAIRE

La problématique étudiée dans cette thèse est la sélection de modèle automatique des ma-

chines à vecteurs de support (SVM) pour la reconnaissance de chiffres manuscrits. Nous

présentons une nouvelle méthodologie de sélection de modèle automatique du SVM sur

des données binaires et multi-classe. L’approche permet d’optimiser les paramètres de

noyaux et de réduire efﬁcacement la complexité du classiﬁeur en minimisant le nombre

de vecteurs de support. Ceci s’accompagne d’une réduction drastique de l’erreur de géné-

ralisation.

La méthodologie proposée est basée sur un nouveau critère de sélection de modèle esti-

mant la probabilité d’erreur du SVM. Ce critère est ensuite minimisé en utilisant une pro-

cédure efﬁciente de descente de gradient. La probabilité d’erreur est une erreur empirique

estimée sur des observations de validation représentant le même problème de classiﬁca-

tion. Son calcul utilise les estimations des probabilités à posteriori de ces observations.

Pour des ﬁns de comparaison, nous considérons deux autres critères de sélection de modèle

que sont le GACV et le VC. Ce sont deux critères analytiques approximant des bornes

supérieures de l’erreur. Pour le premier, nous proposons aussi un nouvel algorithme de

minimisation. Les expériences effectuées sur un problème de classiﬁcation binaire montre

la supériorité du critère de l’erreur empirique et sa capacité à sélectionner adéquatement

les hyper-paramètres du SVM. Aussi, le critère garantit la solution de moindre complexité

en produisant le plus faible nombre de vecteurs de support.

Par ailleurs, sur des données multi-classe, nous proposons deux approches de sélection

automatique de modèle dans la stratégie un-contre-un. La première, dite ’approche lo-

cale’ permet d’optimiser l’ensemble de SVM individuellement en adaptant leurs hyper-

paramètres aux données du couple de classes considéré. La deuxième, dite ’approche

globale’, permet d’optimiser simultanément l’ensemble de SVM en prenant en compte

le comportement de chacun d’eux. Pour cette dernière, nous proposons de maximiser la

vraisemblance des données de validation à travers l’ensemble de SVM en minimisant l’er-

reur quadratique entre les probabilités à posteriori des classes et les probabilités désirées

des données. Les deux approches sont validées expérimentalement sur des données réelles

issues des bases d’images de chiffres manuscrits arabes USPS et indiens INDCENPARMI.

TITRE EN ANGLAIS DE LA THÈSE

Nedjem Eddine Ayat

ABSTRACT

This thesis relates to the automatic model selection of Support Vectors Machine (SVM) for

the recognition of handwritten digits. We propose a new model selection methodology for

the automatic optimization of SVM classiﬁer on binary and multi-class data. The approach

allows to optimize the kernel parameters and to reduce efﬁciently the number of support

vectors. This goes along with a drastic reduction of the generalization error.

The proposed methodology suggests to use a new model selection criterion based on the

estimation of the probability of error of the SVM classiﬁer. Thereby, the criterion is mini-

mized using an efﬁcient gradient descent framework. The probability of error is an empiri-

cal error estimate computed over an independent validation set through the approximation

of the posterior probabilities of the data examples.

For the sake of comparison, we consider two other model selection criterions which are

GACV and VC. These are algebraic criterions which approximate upper bounds of the

expected error. For the former, we also propose a new minimization scheme. The experi-

ments done on a binary classiﬁcation problem prove that the empirical error criterion is

able to choose adequately the SVM hyper-parameters. Moreover, the criterion guarantees

a less complex model with the lowest number of support vectors.

We also undertook the problem of SVM kernels optimization when multiple data class

labels are available. So, we propose two model selection strategies adapted for the one-

against-one data partitioning. A ’local approach’ optimizes individually the provided set

of pairwise classiﬁers by adapting their hyper-parameters to the related classes. In the

other side, a ’global approach’, allows to optimize simultaneously the whole set of SVM

classiﬁers by taking into account the behavior of each of them. For the latter, we propose to

maximize the likelihood of the validation data by minimizing the quadratic error between

the estimated classes’ posterior probabilities and the desired ones. The approaches are then

tested and evaluated on synthetic and real life data. The experiments done on real data

include a whole set of experiments on images of handwritten digits from USPS database

and of Indian digits from INDCENPARMI database.

TABLE DES MATIÈRES

Page

SOMMAIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

TABLE DES MATIÈRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii

LISTE DES TABLEAUX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii

LISTE DES FIGURES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi

LISTE DES ABRÉVIATIONS ET SIGLES . . . . . . . . . . . . . . . . . . . . . xiv

CHAPITRE 1 INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Propositions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . 6

CHAPITRE 2 RECONNAISSANCE DE CARACTÈRES MANUSCRITS . . . . 10

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Reconnaissance de caractères . . . . . . . . . . . . . . . . . . . . . 11

2.3 Extraction de caractéristiques . . . . . . . . . . . . . . . . . . . . . 13

2.4 Classiﬁcation par discrimination . . . . . . . . . . . . . . . . . . . 16

2.4.1 Décision Bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.2 Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4.3 Réseaux de fonctions à base radiale . . . . . . . . . . . . . . . . . . 19

2.4.4 Réseau à convolution . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

CHAPITRE 3 MACHINES À VECTEURS DE SUPPORT : ÉTAT DE L’ART . . 22

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2 Risque structurel . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3 Espace augmenté . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3.1 Noyau polynomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.4 KMOD : un nouveau noyau pour la classiﬁcation . . . . . . . . . . 31

3.5 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.5.1 Hyper-plans de séparation . . . . . . . . . . . . . . . . . . . . . . . 34

3.5.2 Hyper-plans à marge optimale . . . . . . . . . . . . . . . . . . . . 36

3.5.3 Hyper-plans à marge molle . . . . . . . . . . . . . . . . . . . . . . 38

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

Application to the Recognition of Images of Handwritten Digits

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Application to the Recognition of Images of Handwritten Digits

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib