RENNES
1/3
SOUTENANCE
www.irisa.fr
SOUTENANCE DE THESE
Lieu !
Place
Salle METIVIER - Campus de Beaulieu - Rennes
Date & heure !
Date and Time
Jeudi 7 novembre, 14h
Sujet ! Title
« Algorithmes de SVM pour la classification d'images à grande échelle »
« Large Scale Support Vector Machines Algorithms for Visual Classification »
Présentation par !
Display by
DOAN Thanh-Nghi Université de Rennes 1
Résumé !
Abstract
La plupart des algorithmes de classification d’images actuels comportent trois étapes
principales : 1) l’extraction de caractéristiques locales de bas niveau dans les images,
2) l’encodage de ces informations par la construction d’un sac de mots visuel et 3)
l’apprentissage par un algorithme de classification. L’évaluation se fait ensuite sur des
ensembles de bases de données d’images tels que Caltech 101, Caltech 256 ou
Pascal VOC de taille relativement restreinte.
Mais l’apparition de nouveaux ensembles de données d’images plus volumineux, tel
qu’ImageNet avec plusieurs dizaines de milliers de classes et millions d’images, pose
de nouveaux challenges pour la classification d’images à grande échelle. Avec une
telle quantité de données, les algorithmes de l’état de l’art se trouvent confrontés à
deux principaux problèmes : l’exécution d’un algorithme de classification efficace et la
construction d’une représentation robuste des images. Nous allons nous intéresser à
ces deux problèmes.
La construction du modèle de sac de mots visuels s’obtient par une étape de
quantification qui fait perdre beaucoup d’information. Ces modèles de sac de mots
visuels sont alors souvent pas assez discriminant pour la classification d’images à
grande échelle. Nous proposons une nouvelle approche combinant simultanément
plusieurs descripteurs locaux pour améliorer le pouvoir discriminant de ces
représentations.
Ensuite, nous proposons deux améliorations des algorithmes de Séparateurs à Vaste
Marge (SVM) LIBLINEAR, (SVM linéaire), et PmSVM (Power Mean SVM, SVM non
linéaire). La première est un algorithme de bagging équilibré qui permet de traiter
efficacement le déséquilibre des classes dans le cas de l’approche multi-classe un-
contre-tous, il permet par ailleurs de ne pas effectuer l’apprentissage sur la totalité
des données tout en garantissant une convergence rapide vers la solution optimale.
La seconde est la parallélisation de l’apprentissage de tous les cas binaires pour
obtenir un résultat dans un temps raisonnable.
Puis, nous présentons un nouvel algorithme multi-classe parallèle de descente de
gradient stochastique (SGD) pour la classification de millions d’images en milliers de
classes avec des descripteurs en très grande dimension. Deux principales extensions
de l’algorithme SVM-SGD pour la classification de grands ensembles de données
d’images avec un grand nombre de classes sont présentés : un algorithme
RENNES
2/3
2/3
SOUTENANCE
www.irisa.fr
d’apprentissage équilibré de SVM-SGD et une version parallèle de ce processus
d’apprentissage sur des architectures multi-cœur / cluster.
Lorsque la taille des données est telle qu’elles ne peuvent plus être chargées en
mémoire vive, l’apprentissage de SVM, avec un noyau linéaire ou non-linéaire,
devient plus compliqué. Nous proposons de nouvelles versions des algorithmes
LIBLINEAR-CDBLOCK (noyau linéaire) et Power Mean SVM (noyau non
linéaire) incluant : 1) un algorithme d’apprentissage incrémental de Pm-SVM, 2) une
version multi-classe de LIBLINEAR-CDBLOCK avec une stratégie un-contre-tous, 3)
un algorithme de bagging équilibré pour l’apprentissage et 4) la parallélisation du
processus d’apprentissage sur un ensemble de machines multi-cœur. Nous évaluons
notre approche sur les 100 et les 1000 (ILSVRC-2010) plus grandes classes de
l’ensemble de données ImageNet. Nos expérimentations montrent que nous
réduisons de manière considérable la quantité de mémoire nécessaire à
l’apprentissage et sa durée par rapport aux versions originales.
Visual classification remains an extremely challenging problem in computer vision
research. Low-level local image features, bag-of-visual-words model (BoW) and
support vector machines (SVM) are the core of state-of-the-art visual classification
systems. The usual pipeline for visual classification task involves three following
stages: 1) extracting features, 2) encoding images (or image representation), and 3)
training classifiers. Most previous approaches based on this pipeline have been
evaluated only on small datasets, e.g. Caltech 101, Caltech 256, PASCAL VOC, etc.
However, the emergence of ImageNet dataset with millions images for thousands
categories poses more challenges for the next generation of vision mechanisms, large
scale visual classification. Learning an effective and efficient large scale visual
classifier and constructing a robust visual representation are two main research issues
that most state-of-the-art visual classification systems are facing when dealing with
large scale datasets. In this dissertation we are interested in tackling these issues with
the following contributions.
Firstly, a lot of information is lost when performing the quantization step and thus the
obtained bag-of-visual-words have often not enough discriminative power for large
scale visual classification. We propose a novel approach using several local de-
scriptors simultaneously to improve the discriminative power of image representations.
Secondly, we extend the state-of-the-art large scale linear classifier LIBLINEAR SVM
and nonlinear classifier Power Mean SVM (PmSVM) in two ways. (1) The first one is
to build the balanced bagging classifiers with sampling strategy. Our algorithm avoids
training on the full data and the training process of PmSVM rapidly converges to the
optimal solution. (2) The second one is to parallelize the training process of all
classifiers with multi-core computers.
RENNES
3/3
3/3
SOUTENANCE
www.irisa.fr
Thirdly, the new parallel multiclass stochastic gradient descent algorithm aims at
classifying million images with very high-dimensional signatures into thousands
classes. We extend the binary stochastic gradient descent support vector machines
(SVM-SGD) in several ways to develop the new multiclass SVM-SGD for efficiently
classifying large image datasets into many classes. We propose: (1) a balanced
training algorithm for learning binary SVM-SGD classifiers, (2) a parallel training
process of classifiers with several multi-core computers/grid.
Finally, when the training data is larger (e.g. hundreds of giga-bytes) and cannot fit
into main memory, the training task of SVM classifiers including linear and nonlinear
kernels becomes more complicated to deal with. We address this challenge by
extending both state-of-the-art large linear classifier LIBLINEAR-CDBLOCK and
nonlinear classifier Power Mean SVM in these following ways: (1) an incremental
learning method for Power Mean SVM, (2) a multi-class classification LIBLINEAR-
CDBLOCK by using one-versus-all strategy, (3) a balanced bagging algorithm for
training binary classifiers, (4) parallelize the training process of all binary classifiers
with several multi-core computers. Our approaches have been evaluated on the 100
largest classes of ImageNet and ILSVRC 2010. The experiment shows that our
approach can save up lot of memory usage and the training process is much faster
than the original implementation and the state-of-the-art linear classifier LIBLINEAR.
Composition du jury !
Jury composition
PERRONNIN FlorentXerox - rapporteur
GANCARSKI Pierre Univ. De Strasbourg - examinateur
GUERMEUR YannCNRS - rapporteur
GROSS-AMBLARD David Univ. Rennes 1 - examinateur
LEMAIRE VincentOrange - examinateur
POULET FrançoisUniv. Rennes 1 directeur de thèse
Dpt scientifique !
Scientific department
Dpt 6 : Média et interactions (Equipe TEXMEX)
1 / 3 100%