1 Introduction

publicité
M OD ÈLES MARKOVIENS POUR L’ ORGANISATION SPATIALE
DE DESCRIPTEURS D ’ IMAGES .
Juliette Blanchet & Florence Forbes & Cordelia Schmid
[email protected], [email protected], [email protected]
Résumé
Ce papier décrit une nouvelle approche probabiliste pour la reconnaissance de textures. Une image est décrite à l’aide de descripteurs locaux, ainsi que par des relations
spatiales entre ces descripteurs. Les approches actuelles consistent à modéliser les descripteurs comme des variables indépendantes, puis à rajouter l’information spatiale par le biais
de poids, sans modélisation explicite. Nous proposons d’introduire un modèle statistique
rendant compte directement de cette dépendance entre descripteurs, par l’utilisation de
champs de Markov cachés. Nous illustrons notre méthode sur la reconnaissance d’images
uni et multi-textures. Les résultats obtenus sont prometteurs.
This paper decribes a new probabilistic framework for recognizing textures in images.
Images are described by spatially related local descriptors. Current approaches consist in
modeling descriptors as statistically independent variables, and in augmenting the data with
spatial information, in terms of weights, without explicit model. We propose to introduce
the use of statistical parametric models of the dependence between descriptors, using Hidden Markov Models (HMM). Preliminary experiments obtained with uni and multi textures
show promising results.
Mots clés : Champ de Markov, Algorithme de type EM, Classification, Apprentissage statistique, Reconnaissance de textures.
1 Introduction
Une notion clé en vision par ordinateur est celle de descripteurs, caractérisations locales
d’une image. De manière générale, un bon descripteur se doit d’être résistant aux occlusions,
ainsi qu’invariant à diverses transformations géométriques de l’image. La recherche de “bons”
descripteurs a déjà fait l’objet de nombreuses études, alors que la prise en compte de leur organisation spatiale reste un problème très ouvert.
Une tentative de prise en compte du caractère spatial des données pour la reconnaissance de
textures a été effectuée dans [2] : lors de la phase de reconnaissance, les probabilités a posteriori d’appartenance aux différentes classes de textures sont raffinées par un algorithme de
relaxation. Cependant, le voisinage n’y est pris en compte que par un terme de poids, sans
modèle explicite. Nous proposons de modéliser les données (les descripteurs d’image) comme
des variables statistiques liées, et par conséquent d’utiliser un modèle statistique paramétrique
1
rendant compte explicitement de ces dépendances. Le modèle que nous avons choisi est celui
du champ de Markov caché. L’estimation des paramètres d’un tel modèle étant difficile, nous
utilisons des procédures d’estimation récentes (algorithme de type EM), basées sur l’algorithme
d’Expectation-Maximisation (EM) et sur le principe du champ moyen issu de la physique statistique.
2 Modélisation des textures
Il est classique en vision de ne pas travailler sur les niveaux de gris, mais sur des caractérisations locales de l’image, appelés descripteurs. Brièvement, le principe consiste à détecter des points fortement représentatifs de l’image (les points d’interêt), à y associer des régions
(ellipses, rectangles... de tailles variables), puis des données multidimentionnelles (les descripteurs) calculés sur ces régions. Pour nos expérimentations, le détecteur utilisé est le Laplacien
avec adaptation affine, et les descripteurs sont des vecteurs de taille 80 calculés à partir de spin
images de taille 5 × 16 [2]. Les échelles sont des ellipses de tailles variables sur lesquelles est
défini le graphe de voisinage : deux points i et j seront dits voisins si i appartient à l’ellipse
associée à j et réciproquement.
Contrairement à [2], nous considérons que les descripteurs sont des variables aléatoires dépendantes, modélisées pour chaque texture par un champ de Markov caché, de paramètres inconnus.
Soit x = (x1 , . . . , xn ) les n descripteurs (pour n points d’intérêt détectés) extraits d’une image
de la texture m (1 ≤ m ≤ M ). On suppose que chaque texture est composée de K sous-classes
cm1 . . . cmK (K = 10 pour nos expérimentations), qui n’ont pas de sens précis mais qui permettent de modéliser la distribution des descripteurs par un mélange. Pour i = 1, . . . , n, on
modélise la probabilité d’observer le descripteur xi pour la texture m par :
P (xi |Ψm ) =
K
X
P (Zi = cmk |∆m ) f (xi |Θmk ),
(1)
k=1
où f (xi |Θmk ) dénote la distribution gaussienne multivariée de paramètres Θmk (la moyenne
µmk et la matrice de covariance Σmk ). La variable aléatoire Zi représente la sous-classe à laquelle appartient le descripteur xi ; elle peut prendre les valeurs {cm1 , . . . , cmK }, et sa loi est
paramétrée par ∆m . Ψm = (∆m , (Θmk )1≤k≤K ) dénote l’ensemble des paramètres du modèle
pour la texture m.
Les dépendances entre descripteurs voisins sont modélisées en considérant que la loi jointe des
variables Z1 , . . . , Zn est un champ de Markov discret sur le graphe défini à la section 2. Soit
z = (z1 , . . . , zn ) des réalisations des Zi . On définit :
P (z|∆m ) = W (∆m )−1 exp(−H(z, ∆m ))
2
(2)
où W (∆m ) est une constante de normalisation et H une fonction énergie supposée être de la
forme (nous nous limitons aux interactions entre paires) :
X
X
H(z, ∆m ) =
Vi (zi , αm ) +
Vij (zi , zj ,IBm )
i
i∼j
(la notation i ∼ j signifie que les sites i et j sont voisins ; la somme de droite ne porte donc que
sur des sites voisins).
Les fonctions Vi et Vij se rapportent respectivement aux potentiels sur les singletons et sur
les paires, de paramètres respectifs αm et IBm . Il s’en suit ∆m = (αm ,IBm ).
Nous supposons que les potentiels sur les singletons ne dépendent que de la valeur z i (et non de
i), c’est à dire :
Vi (zi , αm ) = −αm (k)
si zi = cmk
Les potentiels sur les singletons sont donc caractérisés par K poids α m = (αm (k))1≤k≤K
pondérant l’importance relative des K sous-classes de la texture m.
De même, les potentiels sur les paires Vij sont supposés ne dépendre que de zi et zj , soit
Vij (zi , zj ,IBm ) = −Bm (k, l)
si zi = cmk , zj = cml
Ils sont donc caractérisés par la matrice IBm = (Bm (k, l))1≤k,l≤K . Notons que si IBm = βm ×Id,
le paramètre spatial IBm se réduit à un scalaire βm et nous retrouvons le modèle de Potts traditionnel utilisé en segmentation d’images.
La texture m est donc représentée par un champ de Markov caché paramétré par Ψ m =
(αm ,IBm , (Θmk )1≤k≤K ).
3 Apprentissage et classification
Dans la modélisation précédente, les paramètres Ψm = (∆m , (Θmk )1≤k≤K ) sont inconnus
et doivent être estimés pour chaque texture m.
3.1 Apprentissage : estimation des paramètres inconnus
Pour apprendre le modèle associé à chacune des textures, on suppose que l’on dispose d’une
base d’apprentissage constituée d’images identifiées comme appartenant à l’une des textures.
Chaque texture va alors être apprise successivement sur les images correspondantes. L’algorithme EM est couramment utilisé pour l’estimation de paramètres dans le cas de données
cachées. Pour les champs de Markov cachés, du fait de la dépendance des données, l’algorithme n’est pas utilisable en pratique, et des approximations sont donc nécessaires. Dans ce
papier, nous utilisons une des approximations de [1], basée sur le principe du champ moyen.
Les algorithmes de type champ moyen (et en particulier l’algorithme en champ simulé) qui en
3
découlent ont montré leurs performances dans le cadre de la segmentation [1]. Notons cependant qu’il est nécessaire de généraliser ces algorithmes pour permettre l’estimation de la matrice
IBm (et non seulement d’un scalaire βm comme dans le modèle de Potts originel).
Le principe du champ moyen consiste à se ramener à un système de particules indépendantes
(sur lequel l’algorithme EM pourra alors être appliqué) en négligeant, pour un site i, les fluctuations de ses voisins autour de leur moyenne (ie en fixant ∀j ∈ V(i), z j = IE(Zj )). Plus
généralement, on parle d’approximation de type champ moyen lorsque, pour un site i, ses voisins sont fixés à des constantes. La distribution markovienne (2) peut alors être approximée
par :
n
Y
P (zi |z̃j , j ∈ V(i), Ψm )
P (z|∆m ) '
i=1
De même, la loi jointe P (x, z|Ψm ) et la loi markovienne P (z|x, Ψm ) se trouvent approximées
par des distributions factorisées. L’utilisation de telles approximations mène à des algorithmes
itératifs à deux étapes, alternant création du nouveau champ de voisins et application de l’algorithme EM sur le système indépendant ainsi obtenu. En particulier à l’itération (q), l’algorithme
(q)
en champ moyen consiste à fixer les z̃i à l’estimation de leur moyenne, l’algorithme en champ
modal à l’estimation de leur mode et l’algorithme en champ simulé à les simuler.
L’utilisation d’un de ces algorithmes nous permet, pour chaque texture m, d’obtenir des estimaˆ m et α̂m des paramètres
teurs (µ̂mk , Σ̂mk )1≤k≤K des lois gaussiennes, ainsi que des estimateurs IB
du champ caché. Cet ensemble de paramètres Ψ̂m va ensuite être utilisé pour classer les régions
d’une image test dans une des textures apprises.
3.2 Classification d’une image test
L’objectif est de classer individuellement chacune des régions dans une des M textures.
Pour une image de texture inconnue, chaque descripteur xi est susceptible d’être issu d’une
des M textures possibles, et donc d’une des M K sous-classes possibles. Il est alors naturel
de modéliser le champ caché par un champ de Markov discret, pouvant prendre les valeurs
{cmk , m ∈ [1, M ], k ∈ [1, K]}. et donc la probabilité d’observer le descripteur xi par :
P (xi |Ψ) =
M X
K
X
P (Zi = cmk |∆) f (xi |Θmk ),
(3)
m=1 k=1
Comme dans la section 2, la fonction d’énergie du champ spatial Z est supposée se décomposer
en fonctions potentielles sur les singletons et sur les paires. Son paramètre noté ∆ s’écrit alors
sous la forme ∆ = (α,IB), où α est un vecteur de dimension M K pondèrant l’importance relative des différentes sous-classes, et IB est une matrice M K × M K modélisant les intéractions
entre sous-classes associées à des sites voisins.
Il est alors naturel de fixer les Θmk aux Θ̂mk obtenus par l’apprentissage, les α aux potentiels (α̂m )1≤m≤M appris et les termes de la matrice IB correspondant aux potentiels d’inter4
action entre sous-classes cmk et cml d’une même texture m aux B̂m (k, l). Les termes d’interactions entre sous-classes associées à des textures différentes sont en pratique fixés à une
valeur constante qui peut varier selon le degré d’interaction que l’on souhaite (−10 pour nos
ˆ Θ̂) de la loi
expérimentations). Au final, on obtient donc une valeur du paramètre Ψ̂ = (α̂, IB,
d’une image quelconque.
Une texture m étant composée des K sous-classes
P cm1 , . . . , cmK , il ˆest alors naturel de classer
un descripteur xi dans la texture m maximisant K
k=1 P (Zi = cmk |∆) f (xi |Θ̂mk ). Cependant,
la loi markovienne de Zi fait intervenir la classification inconnue zj des sites j voisins de i,
et n’est donc pas calculable directement. On peut cependant réappliquer le principe du champ
moyen sur les paramètres Ψ̂ laissés fixes pour en obtenir une approximation.
4 Résultats expérimentaux
La base d’apprentissage est composée de 10 images uni-texture pour chacune des 7 textures
(soit un total de 70 images) : la brique, la moquette, le fauteuil, deux types de sol, le marbre, le
bois.
Reconnaissance d’images uni-textures
Le Tableau 1 donne les taux de bonne classification de l’ensemble des régions, pour chacune des
textures. Pour comparaison, nous reportons dans la ligne “Max. vraisemblance” les résultats obtenus en classant chaque région dans la texture de plus grande vraisemblance lorsque le modèle
appris pour chaque texture est un mélange gaussien (sans dépendance spatiale). Nous donnons
également les résultats obtenus par la procédure proposée dans [2] qui utilise un algorithme de
relaxation permettant d’ajouter de l’information spatiale par le biais de poids, sans modélisation
explicite des dépendances entre descripteurs.
Texture
Max. vraisemblance
Relaxation
Champ simulé
Brique
48
78
81
Moquette
77
96
97
Fauteuil
52
72
77
Sol 1
56
86
80
Sol 2
51
80
86
Marbre
17
19
26
Bois
30
42
46
TAB . 1 – % de bonne classification des régions sur des images uni-textures.
Ces résultats confirment l’intérêt de prendre en compte l’organisation spatiale des descripteurs et de le faire à l’aide d’un modèle explicite : la classification par maximum de vraisemblance donne des taux de classification significativement inférieurs pour chacune des textures
et la méthode de relaxation est globalement moins bonne, quoique satisfaisante. Le marbre et le
bois semblent difficiles à apprendre, certaines de leurs images ayant de très brusques changements de luminosité.
5
Reconnaissance d’images multi-textures
Les trois algorithmes sont également testés sur 62 images multi-textures, dont 5 artificiellement
créées. Un exemple de classifications obtenue est présenté Figure 1. Il en ressort clairement que
la prise en compte de l’information spatiale par une modélisation explicite (à travers l’algorithme en champ simulé), améliore la classification.
Brique
Moquette
Fauteuil
Sol 1
Sol 2
Marbre
Bois
F IG . 1 – Classification obtenue par le maximum de vraisemblance (en haut), par la relaxation (au centre)
et par l’algorithme en champ simulé (en bas), sur une image composée de fauteuil et de bois.
5 Conclusion et perspectives
Notre objectif était de montrer que des modèles statistiques paramétriques pouvaient être introduits pour rendre compte de l’organisation spatiale et géométrique des descripteurs d’images.
Les champs de Markov cachés en sont des candidats naturels, que nous avons expérimentés dans
le cadre de la reconnaissance de textures. Des résultats obtenus sur des images uni ou multi textures sont prometteurs.
Le formalisme présenté dans ce papier est général et pourrait être envisagé dans d’autres contextes, notamment pour la reconnaissance d’objets. Sa mise en pratique demande cependant
plus de développement concernant à la fois les aspects de vision (choix du graphe de voisinage
et des descripteurs) et de statistique (estimation et sélection de modèles).
Bibliographie
[1] G.Celeux, F.Forbes et N.Peyrard, “EM Procedures Using Mean Field-Like Approximations
for Markov Model-Based Image Segmentation”, Pattern Recognition, 36(1), p. 131-144, 2003.
[2] S. Lazebnik, C. Schmid et J. Ponce, “Affine-Invariant Local Descriptors and Neighborhood
Statistics for Texture Recognition”, Proc. ICCV, 2003.
6
Téléchargement