Résumé
Les travaux effectués dans le cadre de cette thèse portent sur l’identification automatique de visages dans des
bases de données d’images numériques. L’objectif est de simplifier le déroulement de l’identification
biométrique qui consiste à la recherche de l’identité requête parmi l’ensemble des individus de la base de
données préenregistrée, appelée aussi galerie. En effet, le schéma d’identification classique est complexe et très
coûteux notamment dans le cas de grandes bases de données biométriques. Le processus original que nous
proposons ici a pour objectif de réduire la complexité et d’améliorer les performances en terme de temps de
calcul et de taux d’identification.
Dans ce cadre biométrique, nous avons proposé une étape de classification non supervisée ou clustering des
visages pour partitionner la base d’images en plusieurs sous ensembles cohérents et bien discriminés. Pour ce
faire, l’algorithme de clustering vise à extraire, pour chaque visage, un ensemble de descripteurs, appelé
signature, qui lui soit spécifique. Trois techniques de représentation faciales ont été développées dans le but
d’extraire des informations différentes et complémentaires décrivant le visage humain : deux méthodes
factorielles d’analyse multidimensionnelle et de projection des données (méthodes dites « Eigenfaces » et
« Fisherfaces ») ainsi qu’une méthode d’extraction des moments géométriques de Zernike. Sur la base des
différentes classes de signatures extraites pour chaque visage plusieurs méthodes de clustering sont mises en
compétition afin de dégager la classification optimale qui conduit à une meilleure réduction de la galerie. Les
méthodes retenues sont, soit de type « centres mobiles » telles que les K-moyennes et les centres mobiles de
Forgy, ou de type « agglomérative » telle que la méthode de BIRCH. Sur la base de la dépendance des partitions
générées, ces différentes stratégies classificatoires sont ensuite combinées suivant une architecture parallèle de
manière à optimiser la réduction de l’espace de recherche à un sous ensemble de la base de données. Les clusters
retenus in fine étant ceux pour lesquels la probabilité d’appartenance de l’identité requête est quasi certaine.
Mots clés:
Analyses d’images, signature biométrique, classification non supervisée (clustering), base de
données d’images, identification de visages.
Abstract
The work done in the framework of this thesis deal with the automatic faces identification in databases of digital
images. The goal is to simplify biometric identification process that is seeking the query identity among all
identities enrolled in the database, also called gallery. Indeed, the classical identification scheme is complex and
requires large computational time especially in the case of large biometric databases. The original process that
we propose here aims to reduce the complexity and to improve the computing time and the identification rate
performances.
In this biometric context, we proposed an unsupervised classification or clustering of facial images in order to
partition the enrolled database into several coherent and well discriminated subsets. In fact, the clustering
algorithm aims to extract, for each face, a specific set of descriptors, called signature. Three facial representation
techniques have been developed in order to extract different and complementary information which describe the
human face: two factorial methods of multidimensional analysis and data projection (namely called "Eigenfaces"
and "Fisherfaces") and a method of extracting geometric Zernike moments. On the basis of the different
signatures obtained for each face, several clustering methods are used in competing way in order to achieve the
optimal classification which leads to a greater reduction of the gallery. We used either "mobile centers" methods
type such as the K-means algorithm of MacQueen and that of Forgy, and the "agglomerative" method of BIRCH.
Based on the dependency of the generated partitions, these different classifying strategies are then combined
using a parallel architecture in order to maximize the reduction of the search space to the smallest subset of the
database. The retained clusters in fine are those which contain the query identity with an almost certain
probability.
Key words:
Image analysis, biometric signature, unsupervised classification (clustering), images databases,
facial identification.