Etude de méthodes de Clustering pour la segmentation d’images faciales
Université Paris-Dauphine
Abstract
La clustering est un domaine du Machine Learning ap-
partenant à l’apprentissage non supervisé. Le clustering est
principalement utilisé pour regrouper des populations en
communautés disposant de critères communs proches. La
population peut être de nature très diverse : objets, image,
musique, attributs, etc. . . Cette article présente une solu-
tion pour résoudre un problème de clustering appliqué à
des images provenant d’une série télévisée, le but étant de
rassembler les mêmes personnages au sein de cluster com-
mun. Le sujet principal de cette article est de présenter
notre première approche pour résoudre ce problème, cela
inclura : l’algorithme de clustering utilisé, la notion de dis-
tance entre images, les distances intra et inter cluster, de
la réduction d’attributs et de la réduction/valorisation de
données.
Mot-clefs : Clustering, Segmentation d’images, Ex-
traction d’attribut, Reconnaissance faciale, Apprentissage
non supervisé.
1. Introduction
Le sujet est proposé par la société Reminiz sur challenge-
data.ens.fr. La problématique principale est d’effectuer une
clustering (clustering) des images de personnages de séries
télévisées à partir d’images extraites de scènes où ils appa-
raissent. Le but étant de regrouper les images d’un même
personnage de différentes scènes au sein d’un même clus-
ter. Nous disposons d’un ensemble de données comportant
une partie d’entraînement et d’une autre partie de test, qui
servira pour évaluer la qualité finale de notre modèle. Dans
le cadre d’apprentissage non supervisé, la partie entraîne-
ment permettra de définir un ordre de grandeur des mé-
triques décisives aux choix du nombre de cluster. En effet
des mesures comme la distance inter/intra cluster sont des
mesures importantes dans le choix du nombre de clusters.
La distance intra cluster représente la distance maximale
entre deux points d’un même cluster, plus cette distance
est grande, plus le cluster est hétérogène. La distance inter
cluster représente la distance minimale entre deux points
de clusters différents, plus cette distance est grande, plus
les clusters sont différents. L’idéal est donc de maximiser
la distance inter cluster et de minimiser la distance intra
cluster. Concernant notre problématique, une distance intra
cluster trop grande aura tendance à regrouper deux person-
nages différents au sein d’un même cluster, c’est un faux
positif ,à l’inverse, une distance intra cluster trop petite fera
différencier deux mêmes personnages, il s’agit d’un faux
négatif. Dans notre problème, un faux positif et un faux né-
gatif sont traités similairement, il suffit donc de minimiser
notre erreur. La partie entraînement est donc essentielle car
elle donne un ordre de grandeur des distances à trouver et
par comparaison, nous pouvons ajuster le nombre de clus-
ters prédéfinis.
Les données sont sous format d’images regroupées en
“tracks” correspondant à des scènes, nous disposons de
12267 tracks (9349 en entraînement et 2918 en test) avec
environ 10 images par track (soit 122670 images). Sachant
que les images d’un track sont très proches, voire iden-
tiques, nous avons à disposition une grande masse de don-
nées apportant un gain d’information minime. Dans cette
première approche, nous avons décidé de sélectionner une
image par track permettant au mieux de représenter le track.
Une partie de cet article traitera de la sélection d’images
et de la réduction des ensembles de données mais l’idée
générale est de comparer ces images pour choisir la repré-
sentative d’un point de vue qualité et visibilité. Toutes les
images sont uniformisées dans un format 224 x 224 pixels,
dans une approche naïve, chaque pixel représente un attri-
but, une image est donc représentée par 50176 attributs,
mais d’un point de vue pratique seul le visage de l’image
compte, l’idée est donc d’extraire les attributs (donc des
pixels) les plus importants pour alléger la charge de cal-
cul et éviter de réunir des images possédant le même fond
de scène. La partie traitant de ce sujet présentera deux mé-
thodes d’extraction d’attributs : la reconnaissance de visage
et l’ACP (Analyse en composantes principales). Après ces
prétraitements indispensables pour l’efficacité et la cohé-
rence du modèle, nous présenterons notre approche algo-
1