ÉCOLE DE TECHNOLOGIE SUPÉRIEURE
UNIVERSITÉ DU QUÉBEC
THÈSE PRÉSENTÉE À
L’ÉCOLE DE TECHNOLOGIE SUPÉRIEURE
COMME EXIGENCE PARTIELLE
À L’OBTENTION DU
DOCTORAT EN GÉNIE
PH.D.
PAR
NEDJEM EDDINE AYAT
SÉLECTION DE MODÈLE AUTOMATIQUE DES MACHINES À VECTEURS DE
SUPPORT: APPLICATION À LA RECONNAISSANCE D’IMAGES DE CHIFFRES
MANUSCRITS.
MONTRÉAL, LE 20 JANVIER 2004
c
droits réservés de Nedjem Eddine Ayat
CETTE THÈSE A ÉTÉ ÉVALUÉE
PAR UN JURY COMPOSÉ DE :
M. Mohamed Cheriet, directeur de recherche
Département de génie de la production automatisée à l’École de Technologie Supérieure.
M. Ching Y. Suen, codirecteur
Centre for Pattern Recognition and Machine Intelligence, Concordia University.
M. Richard Lepage, président du jury
Département de génie de la production automatisée à l’École de Technologie Supérieure.
M. Alain Biem, examinateur externe
IBM at Watson Research Center, N.Y, USA.
M. Amar Mitiche, examinateur
Institut National de Recherche Scientifique, Université du Québec.
ELLE A FAIT L’OBJET D’UNE SOUTENANCE DEVANT JURY ET PUBLIC
LE 10 DÉCEMBRE 2003
À L’ÉCOLE DE TECHNOLOGIE SUPÉRIEURE
SÉLECTION DE MODÈLE AUTOMATIQUE DES MACHINES À VECTEURS
DE SUPPORT: APPLICATION À LA RECONNAISSANCE D’IMAGES DE
CHIFFRES MANUSCRITS.
Nedjem Eddine Ayat
SOMMAIRE
La problématique étudiée dans cette thèse est la sélection de modèle automatique des ma-
chines à vecteurs de support (SVM) pour la reconnaissance de chiffres manuscrits. Nous
présentons une nouvelle méthodologie de sélection de modèle automatique du SVM sur
des données binaires et multi-classe. L’approche permet d’optimiser les paramètres de
noyaux et de réduire efficacement la complexité du classifieur en minimisant le nombre
de vecteurs de support. Ceci s’accompagne d’une réduction drastique de l’erreur de géné-
ralisation.
La méthodologie proposée est basée sur un nouveau critère de sélection de modèle esti-
mant la probabilité d’erreur du SVM. Ce critère est ensuite minimisé en utilisant une pro-
cédure efficiente de descente de gradient. La probabilité d’erreur est une erreur empirique
estimée sur des observations de validation représentant le même problème de classifica-
tion. Son calcul utilise les estimations des probabilités à posteriori de ces observations.
Pour des fins de comparaison, nous considérons deux autres critères de sélection de modèle
que sont le GACV et le VC. Ce sont deux critères analytiques approximant des bornes
supérieures de l’erreur. Pour le premier, nous proposons aussi un nouvel algorithme de
minimisation. Les expériences effectuées sur un problème de classification binaire montre
la supériorité du critère de l’erreur empirique et sa capacité à sélectionner adéquatement
les hyper-paramètres du SVM. Aussi, le critère garantit la solution de moindre complexité
en produisant le plus faible nombre de vecteurs de support.
Par ailleurs, sur des données multi-classe, nous proposons deux approches de sélection
automatique de modèle dans la stratégie un-contre-un. La première, dite ’approche lo-
cale’ permet d’optimiser l’ensemble de SVM individuellement en adaptant leurs hyper-
paramètres aux données du couple de classes considéré. La deuxième, dite ’approche
globale’, permet d’optimiser simultanément l’ensemble de SVM en prenant en compte
le comportement de chacun d’eux. Pour cette dernière, nous proposons de maximiser la
vraisemblance des données de validation à travers l’ensemble de SVM en minimisant l’er-
reur quadratique entre les probabilités à posteriori des classes et les probabilités désirées
des données. Les deux approches sont validées expérimentalement sur des données réelles
issues des bases d’images de chiffres manuscrits arabes USPS et indiens INDCENPARMI.
TITRE EN ANGLAIS DE LA THÈSE
Nedjem Eddine Ayat
ABSTRACT
This thesis relates to the automatic model selection of Support Vectors Machine (SVM) for
the recognition of handwritten digits. We propose a new model selection methodology for
the automatic optimization of SVM classifier on binary and multi-class data. The approach
allows to optimize the kernel parameters and to reduce efficiently the number of support
vectors. This goes along with a drastic reduction of the generalization error.
The proposed methodology suggests to use a new model selection criterion based on the
estimation of the probability of error of the SVM classifier. Thereby, the criterion is mini-
mized using an efficient gradient descent framework. The probability of error is an empiri-
cal error estimate computed over an independent validation set through the approximation
of the posterior probabilities of the data examples.
For the sake of comparison, we consider two other model selection criterions which are
GACV and VC. These are algebraic criterions which approximate upper bounds of the
expected error. For the former, we also propose a new minimization scheme. The experi-
ments done on a binary classification problem prove that the empirical error criterion is
able to choose adequately the SVM hyper-parameters. Moreover, the criterion guarantees
a less complex model with the lowest number of support vectors.
We also undertook the problem of SVM kernels optimization when multiple data class
labels are available. So, we propose two model selection strategies adapted for the one-
against-one data partitioning. A ’local approach’ optimizes individually the provided set
of pairwise classifiers by adapting their hyper-parameters to the related classes. In the
other side, a ’global approach’, allows to optimize simultaneously the whole set of SVM
classifiers by taking into account the behavior of each of them. For the latter, we propose to
maximize the likelihood of the validation data by minimizing the quadratic error between
the estimated classes’ posterior probabilities and the desired ones. The approaches are then
tested and evaluated on synthetic and real life data. The experiments done on real data
include a whole set of experiments on images of handwritten digits from USPS database
and of Indian digits from INDCENPARMI database.
TABLE DES MATIÈRES
Page
SOMMAIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
TABLE DES MATIÈRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
LISTE DES TABLEAUX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii
LISTE DES FIGURES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
LISTE DES ABRÉVIATIONS ET SIGLES . . . . . . . . . . . . . . . . . . . . . xiv
CHAPITRE 1 INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Propositions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . 6
CHAPITRE 2 RECONNAISSANCE DE CARACTÈRES MANUSCRITS . . . . 10
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Reconnaissance de caractères . . . . . . . . . . . . . . . . . . . . . 11
2.3 Extraction de caractéristiques . . . . . . . . . . . . . . . . . . . . . 13
2.4 Classification par discrimination . . . . . . . . . . . . . . . . . . . 16
2.4.1 Décision Bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.3 Réseaux de fonctions à base radiale . . . . . . . . . . . . . . . . . . 19
2.4.4 Réseau à convolution . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
CHAPITRE 3 MACHINES À VECTEURS DE SUPPORT : ÉTAT DE L’ART . . 22
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Risque structurel . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Espace augmenté . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Noyau polynomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 KMOD : un nouveau noyau pour la classification . . . . . . . . . . 31
3.5 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5.1 Hyper-plans de séparation . . . . . . . . . . . . . . . . . . . . . . . 34
3.5.2 Hyper-plans à marge optimale . . . . . . . . . . . . . . . . . . . . 36
3.5.3 Hyper-plans à marge molle . . . . . . . . . . . . . . . . . . . . . . 38
1 / 221 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !