soutenance de these

Téléchargement

RENNES

1/3

SOUTENANCE

www.irisa.fr

SOUTENANCE DE THESE

Lieu !

Place

Salle METIVIER - Campus de Beaulieu - Rennes

Date & heure !

Date and Time

Jeudi 7 novembre, 14h

Sujet ! Title

« Algorithmes de SVM pour la classification d'images à grande échelle »

« Large Scale Support Vector Machines Algorithms for Visual Classification »

Présentation par !

Display by

DOAN Thanh-Nghi – Université de Rennes 1

Résumé !

Abstract

La plupart des algorithmes de classification d’images actuels comportent trois étapes

principales : 1) l’extraction de caractéristiques locales de bas niveau dans les images,

2) l’encodage de ces informations par la construction d’un sac de mots visuel et 3)

l’apprentissage par un algorithme de classification. L’évaluation se fait ensuite sur des

ensembles de bases de données d’images tels que Caltech 101, Caltech 256 ou

Pascal VOC de taille relativement restreinte.

Mais l’apparition de nouveaux ensembles de données d’images plus volumineux, tel

qu’ImageNet avec plusieurs dizaines de milliers de classes et millions d’images, pose

de nouveaux challenges pour la classification d’images à grande échelle. Avec une

telle quantité de données, les algorithmes de l’état de l’art se trouvent confrontés à

deux principaux problèmes : l’exécution d’un algorithme de classification efficace et la

construction d’une représentation robuste des images. Nous allons nous intéresser à

ces deux problèmes.

La construction du modèle de sac de mots visuels s’obtient par une étape de

quantification qui fait perdre beaucoup d’information. Ces modèles de sac de mots

visuels sont alors souvent pas assez discriminant pour la classification d’images à

grande échelle. Nous proposons une nouvelle approche combinant simultanément

plusieurs descripteurs locaux pour améliorer le pouvoir discriminant de ces

représentations.

Ensuite, nous proposons deux améliorations des algorithmes de Séparateurs à Vaste

Marge (SVM) LIBLINEAR, (SVM linéaire), et PmSVM (Power Mean SVM, SVM non

linéaire). La première est un algorithme de bagging équilibré qui permet de traiter

efficacement le déséquilibre des classes dans le cas de l’approche multi-classe un-

contre-tous, il permet par ailleurs de ne pas effectuer l’apprentissage sur la totalité

des données tout en garantissant une convergence rapide vers la solution optimale.

La seconde est la parallélisation de l’apprentissage de tous les cas binaires pour

obtenir un résultat dans un temps raisonnable.

Puis, nous présentons un nouvel algorithme multi-classe parallèle de descente de

gradient stochastique (SGD) pour la classification de millions d’images en milliers de

classes avec des descripteurs en très grande dimension. Deux principales extensions

de l’algorithme SVM-SGD pour la classification de grands ensembles de données

d’images avec un grand nombre de classes sont présentés : un algorithme

RENNES

2/3

SOUTENANCE

www.irisa.fr

d’apprentissage équilibré de SVM-SGD et une version parallèle de ce processus

d’apprentissage sur des architectures multi-cœur / cluster.

Lorsque la taille des données est telle qu’elles ne peuvent plus être chargées en

mémoire vive, l’apprentissage de SVM, avec un noyau linéaire ou non-linéaire,

devient plus compliqué. Nous proposons de nouvelles versions des algorithmes

LIBLINEAR-CDBLOCK (noyau linéaire) et Power Mean SVM (noyau non

linéaire) incluant : 1) un algorithme d’apprentissage incrémental de Pm-SVM, 2) une

version multi-classe de LIBLINEAR-CDBLOCK avec une stratégie un-contre-tous, 3)

un algorithme de bagging équilibré pour l’apprentissage et 4) la parallélisation du

processus d’apprentissage sur un ensemble de machines multi-cœur. Nous évaluons

notre approche sur les 100 et les 1000 (ILSVRC-2010) plus grandes classes de

l’ensemble de données ImageNet. Nos expérimentations montrent que nous

réduisons de manière considérable la quantité de mémoire nécessaire à

l’apprentissage et sa durée par rapport aux versions originales.

Visual classification remains an extremely challenging problem in computer vision

research. Low-level local image features, bag-of-visual-words model (BoW) and

support vector machines (SVM) are the core of state-of-the-art visual classification

systems. The usual pipeline for visual classification task involves three following

stages: 1) extracting features, 2) encoding images (or image representation), and 3)

training classifiers. Most previous approaches based on this pipeline have been

evaluated only on small datasets, e.g. Caltech 101, Caltech 256, PASCAL VOC, etc.

However, the emergence of ImageNet dataset with millions images for thousands

categories poses more challenges for the next generation of vision mechanisms, large

scale visual classification. Learning an effective and efficient large scale visual

classifier and constructing a robust visual representation are two main research issues

that most state-of-the-art visual classification systems are facing when dealing with

large scale datasets. In this dissertation we are interested in tackling these issues with

the following contributions.

Firstly, a lot of information is lost when performing the quantization step and thus the

obtained bag-of-visual-words have often not enough discriminative power for large

scale visual classification. We propose a novel approach using several local de-

scriptors simultaneously to improve the discriminative power of image representations.

Secondly, we extend the state-of-the-art large scale linear classifier LIBLINEAR SVM

and nonlinear classifier Power Mean SVM (PmSVM) in two ways. (1) The first one is

to build the balanced bagging classifiers with sampling strategy. Our algorithm avoids

training on the full data and the training process of PmSVM rapidly converges to the

optimal solution. (2) The second one is to parallelize the training process of all

classifiers with multi-core computers.

RENNES

3/3

SOUTENANCE

www.irisa.fr

Thirdly, the new parallel multiclass stochastic gradient descent algorithm aims at

classifying million images with very high-dimensional signatures into thousands

classes. We extend the binary stochastic gradient descent support vector machines

(SVM-SGD) in several ways to develop the new multiclass SVM-SGD for efficiently

classifying large image datasets into many classes. We propose: (1) a balanced

training algorithm for learning binary SVM-SGD classifiers, (2) a parallel training

process of classifiers with several multi-core computers/grid.

Finally, when the training data is larger (e.g. hundreds of giga-bytes) and cannot fit

into main memory, the training task of SVM classifiers including linear and nonlinear

kernels becomes more complicated to deal with. We address this challenge by

extending both state-of-the-art large linear classifier LIBLINEAR-CDBLOCK and

nonlinear classifier Power Mean SVM in these following ways: (1) an incremental

learning method for Power Mean SVM, (2) a multi-class classification LIBLINEAR-

CDBLOCK by using one-versus-all strategy, (3) a balanced bagging algorithm for

training binary classifiers, (4) parallelize the training process of all binary classifiers

with several multi-core computers. Our approaches have been evaluated on the 100

largest classes of ImageNet and ILSVRC 2010. The experiment shows that our

approach can save up lot of memory usage and the training process is much faster

than the original implementation and the state-of-the-art linear classifier LIBLINEAR.

Composition du jury !

Jury composition

PERRONNIN Florent – Xerox - rapporteur

GANCARSKI Pierre – Univ. De Strasbourg - examinateur

GUERMEUR Yann – CNRS - rapporteur

GROSS-AMBLARD David – Univ. Rennes 1 - examinateur

LEMAIRE Vincent – Orange - examinateur

POULET François – Univ. Rennes 1 – directeur de thèse

Dpt scientifique !

Scientific department

Dpt 6 : Média et interactions (Equipe TEXMEX)

1 / 3 100%

soutenance de these

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

soutenance de these

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib