SOUTENANCE www. irisa.fr SOUTENANCE DE THESE Lieu Place Salle METIVIER - Campus de Beaulieu - Rennes Date & heure Date and Time Jeudi 7 novembre, 14h Sujet Title « Algorithmes de SVM pour la classification d'images à grande échelle » « Large Scale Support Vector Machines Algorithms for Visual Classification » Présentation par Display by Résumé Abstract DOAN Thanh-Nghi – Université de Rennes 1 La plupart des algorithmes de classification d’images actuels comportent trois étapes principales : 1) l’extraction de caractéristiques locales de bas niveau dans les images, 2) l’encodage de ces informations par la construction d’un sac de mots visuel et 3) l’apprentissage par un algorithme de classification. L’évaluation se fait ensuite sur des ensembles de bases de données d’images tels que Caltech 101, Caltech 256 ou Pascal VOC de taille relativement restreinte. Mais l’apparition de nouveaux ensembles de données d’images plus volumineux, tel qu’ImageNet avec plusieurs dizaines de milliers de classes et millions d’images, pose de nouveaux challenges pour la classification d’images à grande échelle. Avec une telle quantité de données, les algorithmes de l’état de l’art se trouvent confrontés à deux principaux problèmes : l’exécution d’un algorithme de classification efficace et la construction d’une représentation robuste des images. Nous allons nous intéresser à ces deux problèmes. La construction du modèle de sac de mots visuels s’obtient par une étape de quantification qui fait perdre beaucoup d’information. Ces modèles de sac de mots visuels sont alors souvent pas assez discriminant pour la classification d’images à grande échelle. Nous proposons une nouvelle approche combinant simultanément plusieurs descripteurs locaux pour améliorer le pouvoir discriminant de ces représentations. Ensuite, nous proposons deux améliorations des algorithmes de Séparateurs à Vaste Marge (SVM) LIBLINEAR, (SVM linéaire), et PmSVM (Power Mean SVM, SVM non linéaire). La première est un algorithme de bagging équilibré qui permet de traiter efficacement le déséquilibre des classes dans le cas de l’approche multi-classe uncontre-tous, il permet par ailleurs de ne pas effectuer l’apprentissage sur la totalité des données tout en garantissant une convergence rapide vers la solution optimale. La seconde est la parallélisation de l’apprentissage de tous les cas binaires pour obtenir un résultat dans un temps raisonnable. Puis, nous présentons un nouvel algorithme multi-classe parallèle de descente de gradient stochastique (SGD) pour la classification de millions d’images en milliers de classes avec des descripteurs en très grande dimension. Deux principales extensions de l’algorithme SVM-SGD pour la classification de grands ensembles de données d’images avec un grand nombre de classes sont présentés : un algorithme 1/3 R E N N E S SOUTENANCE www. irisa.fr d’apprentissage équilibré de SVM-SGD et une version parallèle de ce processus d’apprentissage sur des architectures multi-cœur / cluster. Lorsque la taille des données est telle qu’elles ne peuvent plus être chargées en mémoire vive, l’apprentissage de SVM, avec un noyau linéaire ou non-linéaire, devient plus compliqué. Nous proposons de nouvelles versions des algorithmes LIBLINEAR-CDBLOCK (noyau linéaire) et Power Mean SVM (noyau non linéaire) incluant : 1) un algorithme d’apprentissage incrémental de Pm-SVM, 2) une version multi-classe de LIBLINEAR-CDBLOCK avec une stratégie un-contre-tous, 3) un algorithme de bagging équilibré pour l’apprentissage et 4) la parallélisation du processus d’apprentissage sur un ensemble de machines multi-cœur. Nous évaluons notre approche sur les 100 et les 1000 (ILSVRC-2010) plus grandes classes de l’ensemble de données ImageNet. Nos expérimentations montrent que nous réduisons de manière considérable la quantité de mémoire nécessaire à l’apprentissage et sa durée par rapport aux versions originales. Visual classification remains an extremely challenging problem in computer vision research. Low-level local image features, bag-of-visual-words model (BoW) and support vector machines (SVM) are the core of state-of-the-art visual classification systems. The usual pipeline for visual classification task involves three following stages: 1) extracting features, 2) encoding images (or image representation), and 3) training classifiers. Most previous approaches based on this pipeline have been evaluated only on small datasets, e.g. Caltech 101, Caltech 256, PASCAL VOC, etc. However, the emergence of ImageNet dataset with millions images for thousands categories poses more challenges for the next generation of vision mechanisms, large scale visual classification. Learning an effective and efficient large scale visual classifier and constructing a robust visual representation are two main research issues that most state-of-the-art visual classification systems are facing when dealing with large scale datasets. In this dissertation we are interested in tackling these issues with the following contributions. Firstly, a lot of information is lost when performing the quantization step and thus the obtained bag-of-visual-words have often not enough discriminative power for large scale visual classification. We propose a novel approach using several local descriptors simultaneously to improve the discriminative power of image representations. Secondly, we extend the state-of-the-art large scale linear classifier LIBLINEAR SVM and nonlinear classifier Power Mean SVM (PmSVM) in two ways. (1) The first one is to build the balanced bagging classifiers with sampling strategy. Our algorithm avoids training on the full data and the training process of PmSVM rapidly converges to the optimal solution. (2) The second one is to parallelize the training process of all classifiers with multi-core computers. 2/3 2/3 R E N N E S SOUTENANCE www. irisa.fr Thirdly, the new parallel multiclass stochastic gradient descent algorithm aims at classifying million images with very high-dimensional signatures into thousands classes. We extend the binary stochastic gradient descent support vector machines (SVM-SGD) in several ways to develop the new multiclass SVM-SGD for efficiently classifying large image datasets into many classes. We propose: (1) a balanced training algorithm for learning binary SVM-SGD classifiers, (2) a parallel training process of classifiers with several multi-core computers/grid. Finally, when the training data is larger (e.g. hundreds of giga-bytes) and cannot fit into main memory, the training task of SVM classifiers including linear and nonlinear kernels becomes more complicated to deal with. We address this challenge by extending both state-of-the-art large linear classifier LIBLINEAR-CDBLOCK and nonlinear classifier Power Mean SVM in these following ways: (1) an incremental learning method for Power Mean SVM, (2) a multi-class classification LIBLINEARCDBLOCK by using one-versus-all strategy, (3) a balanced bagging algorithm for training binary classifiers, (4) parallelize the training process of all binary classifiers with several multi-core computers. Our approaches have been evaluated on the 100 largest classes of ImageNet and ILSVRC 2010. The experiment shows that our approach can save up lot of memory usage and the training process is much faster than the original implementation and the state-of-the-art linear classifier LIBLINEAR. Composition du jury Jury composition PERRONNIN Florent – Xerox - rapporteur GANCARSKI Pierre – Univ. De Strasbourg - examinateur GUERMEUR Yann – CNRS - rapporteur GROSS-AMBLARD David – Univ. Rennes 1 - examinateur LEMAIRE Vincent – Orange - examinateur POULET François – Univ. Rennes 1 – directeur de thèse Dpt scientifique Scientific department 3/3 3/3 Dpt 6 : Média et interactions (Equipe TEXMEX) R E N N E S