La plupart des algorithmes de classification d’images actuels comportent trois étapes
principales : 1) l’extraction de caractéristiques locales de bas niveau dans les images,
2) l’encodage de ces informations par la construction d’un sac de mots visuel et 3)
l’apprentissage par un algorithme de classification. L’évaluation se fait ensuite sur des
ensembles de bases de données d’images tels que Caltech 101, Caltech 256 ou
Pascal VOC de taille relativement restreinte.
Mais l’apparition de nouveaux ensembles de données d’images plus volumineux, tel
qu’ImageNet avec plusieurs dizaines de milliers de classes et millions d’images, pose
de nouveaux challenges pour la classification d’images à grande échelle. Avec une
telle quantité de données, les algorithmes de l’état de l’art se trouvent confrontés à
deux principaux problèmes : l’exécution d’un algorithme de classification efficace et la
construction d’une représentation robuste des images. Nous allons nous intéresser à
ces deux problèmes.
La construction du modèle de sac de mots visuels s’obtient par une étape de
quantification qui fait perdre beaucoup d’information. Ces modèles de sac de mots
visuels sont alors souvent pas assez discriminant pour la classification d’images à
grande échelle. Nous proposons une nouvelle approche combinant simultanément
plusieurs descripteurs locaux pour améliorer le pouvoir discriminant de ces
représentations.
Ensuite, nous proposons deux améliorations des algorithmes de Séparateurs à Vaste
Marge (SVM) LIBLINEAR, (SVM linéaire), et PmSVM (Power Mean SVM, SVM non
linéaire). La première est un algorithme de bagging équilibré qui permet de traiter
efficacement le déséquilibre des classes dans le cas de l’approche multi-classe un-
contre-tous, il permet par ailleurs de ne pas effectuer l’apprentissage sur la totalité
des données tout en garantissant une convergence rapide vers la solution optimale.
La seconde est la parallélisation de l’apprentissage de tous les cas binaires pour
obtenir un résultat dans un temps raisonnable.
Puis, nous présentons un nouvel algorithme multi-classe parallèle de descente de
gradient stochastique (SGD) pour la classification de millions d’images en milliers de
classes avec des descripteurs en très grande dimension. Deux principales extensions
de l’algorithme SVM-SGD pour la classification de grands ensembles de données
d’images avec un grand nombre de classes sont présentés : un algorithme