MOD `
ELES MARKOVIENS POUR LORGANISATION SPATIALE
DE DESCRIPTEURS D I M AGES.
Juliette Blanchet & Florence Forbes & Cordelia Schmid
R´
esum´
e
Ce papier d´ecrit une nouvelle approche probabiliste pour la reconnaissance de tex-
tures. Une image est d´ecrite `a l’aide de descripteurs locaux, ainsi que par des relations
spatiales entre ces descripteurs. Les approches actuelles consistent `a mod´eliser les descrip-
teurs comme des variables ind´ependantes, puis `a rajouter l’information spatiale par le biais
de poids, sans mod´elisation explicite. Nous proposons d’introduire un mod`ele statistique
rendant compte directement de cette d´ependance entre descripteurs, par l’utilisation de
champs de Markov cach´es. Nous illustrons notre m´ethode sur la reconnaissance d’images
uni et multi-textures. Les r´esultats obtenus sont prometteurs.
This paper decribes a new probabilistic framework for recognizing textures in images.
Images are described by spatially related local descriptors. Current approaches consist in
modeling descriptors as statistically independent variables, and in augmenting the data with
spatial information, in terms of weights, without explicit model. We propose to introduce
the use of statistical parametric models of the dependence between descriptors, using Hid-
den Markov Models (HMM). Preliminary experiments obtained with uni and multi textures
show promising results.
Mots cl´
es : Champ de Markov, Algorithme de type EM, Classification, Apprentissage sta-
tistique, Reconnaissance de textures.
1 Introduction
Une notion cl´e en vision par ordinateur est celle de descripteurs, caract´erisations locales
d’une image. De mani`ere g´en´erale, un bon descripteur se doit d’ˆetre r´esistant aux occlusions,
ainsi qu’invariant `a diverses transformations g´eom´etriques de l’image. La recherche de “bons”
descripteurs a d´ej`a fait l’objet de nombreuses ´etudes, alors que la prise en compte de leur orga-
nisation spatiale reste un probl`eme tr`es ouvert.
Une tentative de prise en compte du caract`ere spatial des donn´ees pour la reconnaissance de
textures a ´et´e effectu´ee dans [2] : lors de la phase de reconnaissance, les probabilit´es a pos-
teriori d’appartenance aux diff´erentes classes de textures sont raffin´ees par un algorithme de
relaxation. Cependant, le voisinage n’y est pris en compte que par un terme de poids, sans
mod`ele explicite. Nous proposons de mod´eliser les donn´ees (les descripteurs d’image) comme
des variables statistiques li´ees, et par cons´equent d’utiliser un mod`ele statistique param´etrique
1
rendant compte explicitement de ces d´ependances. Le mod`ele que nous avons choisi est celui
du champ de Markov cach´e. L’estimation des param`etres d’un tel mod`ele ´etant difficile, nous
utilisons des proc´edures d’estimation r´ecentes (algorithme de type EM), bas´ees sur l’algorithme
d’Expectation-Maximisation (EM) et sur le principe du champ moyen issu de la physique sta-
tistique.
2 Mod´
elisation des textures
Il est classique en vision de ne pas travailler sur les niveaux de gris, mais sur des ca-
ract´erisations locales de l’image, appel´es descripteurs. Bri`evement, le principe consiste `a d´etec-
ter des points fortement repr´esentatifs de l’image (les points d’interˆ
et), `a y associer des r´egions
(ellipses, rectangles... de tailles variables), puis des donn´ees multidimentionnelles (les descrip-
teurs) calcul´es sur ces r´egions. Pour nos exp´erimentations, le d´etecteur utilis´e est le Laplacien
avec adaptation affine, et les descripteurs sont des vecteurs de taille 80 calcul´es `a partir de spin
images de taille 5×16 [2]. Les ´echelles sont des ellipses de tailles variables sur lesquelles est
d´efini le graphe de voisinage : deux points iet jseront dits voisins si iappartient `a l’ellipse
associ´ee `a jet r´eciproquement.
Contrairement `a [2], nous consid´erons que les descripteurs sont des variables al´eatoires d´epen-
dantes, mod´elis´ees pour chaque texture par un champ de Markov cach´e, de param`etres inconnus.
Soit x= (x1,...,xn)les ndescripteurs (pour npoints d’int´erˆet d´etect´es) extraits d’une image
de la texture m(1mM). On suppose que chaque texture est compos´ee de Ksous-classes
cm1. . . cmK (K= 10 pour nos exp´erimentations), qui n’ont pas de sens pr´ecis mais qui per-
mettent de mod´eliser la distribution des descripteurs par un m´elange. Pour i= 1, . . . , n, on
mod´elise la probabilit´e d’observer le descripteur xipour la texture mpar :
P(xi|Ψm) =
K
X
k=1
P(Zi=cmk|m)f(xi|Θmk ),(1)
o`u f(xi|Θmk)d´enote la distribution gaussienne multivari´ee de param`etres Θmk (la moyenne
µmk et la matrice de covariance Σmk). La variable al´eatoire Zirepr´esente la sous-classe `a la-
quelle appartient le descripteur xi; elle peut prendre les valeurs {cm1, . . . , cmK }, et sa loi est
param´etr´ee par m.Ψm= (m,(Θmk)1kK)d´enote l’ensemble des param`etres du mod`ele
pour la texture m.
Les d´ependances entre descripteurs voisins sont mod´elis´ees en consid´erant que la loi jointe des
variables Z1,...,Znest un champ de Markov discret sur le graphe d´efini `a la section 2. Soit
z= (z1,...,zn)des r´ealisations des Zi. On d´efinit :
P(z|m) = W(m)1exp(H(z,m)) (2)
2
o`u W(m)est une constante de normalisation et Hune fonction ´energie suppos´ee ˆetre de la
forme (nous nous limitons aux interactions entre paires) :
H(z,m) = X
i
Vi(zi,αm) + X
ij
Vij (zi, zj,IBm)
(la notation ijsignifie que les sites iet jsont voisins ; la somme de droite ne porte donc que
sur des sites voisins).
Les fonctions Viet Vij se rapportent respectivement aux potentiels sur les singletons et sur
les paires, de param`etres respectifs αmet IBm. Il s’en suit m= (αm,IBm).
Nous supposons que les potentiels sur les singletons ne d´ependent que de la valeur zi(et non de
i), c’est `a dire :
Vi(zi,αm) = αm(k)si zi=cmk
Les potentiels sur les singletons sont donc caract´eris´es par Kpoids αm= (αm(k))1kK
pond´erant l’importance relative des Ksous-classes de la texture m.
De mˆeme, les potentiels sur les paires Vij sont suppos´es ne d´ependre que de ziet zj, soit
Vij(zi, zj,IBm) = Bm(k, l)si zi=cmk,zj=cml
Ils sont donc caract´eris´es par la matrice IBm= (Bm(k, l))1k,lK. Notons que si IBm=βm×Id,
le param`etre spatial IBmse r´eduit `a un scalaire βmet nous retrouvons le mod`ele de Potts tradi-
tionnel utilis´e en segmentation d’images.
La texture mest donc repr´esent´ee par un champ de Markov cach´e param´etr´e par Ψm=
(αm,IBm,(Θmk )1kK).
3 Apprentissage et classification
Dans la mod´elisation pr´ec´edente, les param`etres Ψm= (m,(Θmk)1kK)sont inconnus
et doivent ˆetre estim´es pour chaque texture m.
3.1 Apprentissage : estimation des param`
etres inconnus
Pour apprendre le mod`ele associ´e `a chacune des textures, on suppose que l’on dispose d’une
base d’apprentissage constitu´ee d’images identifi´ees comme appartenant `a l’une des textures.
Chaque texture va alors ˆetre apprise successivement sur les images correspondantes. L’algo-
rithme EM est couramment utilis´e pour l’estimation de param`etres dans le cas de donn´ees
cach´ees. Pour les champs de Markov cach´es, du fait de la d´ependance des donn´ees, l’algo-
rithme n’est pas utilisable en pratique, et des approximations sont donc n´ecessaires. Dans ce
papier, nous utilisons une des approximations de [1], bas´ee sur le principe du champ moyen.
Les algorithmes de type champ moyen (et en particulier l’algorithme en champ simul´
e) qui en
3
d´ecoulent ont montr´e leurs performances dans le cadre de la segmentation [1]. Notons cepen-
dant qu’il est n´ecessaire de g´en´eraliser ces algorithmes pour permettre l’estimation de la matrice
IBm(et non seulement d’un scalaire βmcomme dans le mod`ele de Potts originel).
Le principe du champ moyen consiste `a se ramener `a un syst`eme de particules ind´ependantes
(sur lequel l’algorithme EM pourra alors ˆetre appliqu´e) en n´egligeant, pour un site i, les fluc-
tuations de ses voisins autour de leur moyenne (ie en fixant j∈ V(i), zj=IE(Zj)). Plus
g´en´eralement, on parle d’approximation de type champ moyen lorsque, pour un site i, ses voi-
sins sont fix´es `a des constantes. La distribution markovienne (2) peut alors ˆetre approxim´ee
par :
P(z|m)'
n
Y
i=1
P(zi|˜zj, j ∈ V(i),Ψm)
De mˆeme, la loi jointe P(x,z|Ψm)et la loi markovienne P(z|x,Ψm)se trouvent approxim´ees
par des distributions factoris´ees. L’utilisation de telles approximations m`ene `a des algorithmes
it´eratifs `a deux ´etapes, alternant cr´eation du nouveau champ de voisins et application de l’algo-
rithme EM sur le syst`eme ind´ependant ainsi obtenu. En particulier `a l’it´eration (q), l’algorithme
en champ moyen consiste `a fixer les ˜z(q)
i`a l’estimation de leur moyenne, l’algorithme en champ
modal `a l’estimation de leur mode et l’algorithme en champ simul´
e`a les simuler.
L’utilisation d’un de ces algorithmes nous permet, pour chaque texture m, d’obtenir des estima-
teurs (ˆµmk,ˆ
Σmk)1kKdes lois gaussiennes, ainsi que des estimateurs ˆ
IBmet ˆ
αmdes param`etres
du champ cach´e. Cet ensemble de param`etres ˆ
Ψmva ensuite ˆetre utilis´e pour classer les r´egions
d’une image test dans une des textures apprises.
3.2 Classification d’une image test
L’objectif est de classer individuellement chacune des r´egions dans une des Mtextures.
Pour une image de texture inconnue, chaque descripteur xiest susceptible d’ˆetre issu d’une
des Mtextures possibles, et donc d’une des MK sous-classes possibles. Il est alors naturel
de mod´eliser le champ cach´e par un champ de Markov discret, pouvant prendre les valeurs
{cmk, m [1, M], k [1, K]}. et donc la probabilit´e d’observer le descripteur xipar :
P(xi|Ψ) =
M
X
m=1
K
X
k=1
P(Zi=cmk|)f(xi|Θmk ),(3)
Comme dans la section 2, la fonction d’´energie du champ spatial Zest suppos´ee se d´ecomposer
en fonctions potentielles sur les singletons et sur les paires. Son param`etre not´e s’´ecrit alors
sous la forme = (α,IB), o`u αest un vecteur de dimension M K pond`erant l’importance re-
lative des diff´erentes sous-classes, et IB est une matrice M K ×MK mod´elisant les int´eractions
entre sous-classes associ´ees `a des sites voisins.
Il est alors naturel de fixer les Θmk aux ˆ
Θmk obtenus par l’apprentissage, les αaux poten-
tiels (ˆ
αm)1mMappris et les termes de la matrice IB correspondant aux potentiels d’inter-
4
action entre sous-classes cmk et cml d’une mˆeme texture maux ˆ
Bm(k, l). Les termes d’in-
teractions entre sous-classes associ´ees `a des textures diff´erentes sont en pratique fix´es `a une
valeur constante qui peut varier selon le degr´e d’interaction que l’on souhaite (10 pour nos
exp´erimentations). Au final, on obtient donc une valeur du param`etre ˆ
Ψ= ( ˆ
α,ˆ
IB,ˆ
Θ)de la loi
d’une image quelconque.
Une texture m´etant compos´ee des Ksous-classes cm1,...,cmK , il est alors naturel de classer
un descripteur xidans la texture mmaximisant PK
k=1 P(Zi=cmk|ˆ
)f(xi|ˆ
Θmk). Cependant,
la loi markovienne de Zifait intervenir la classification inconnue zjdes sites jvoisins de i,
et n’est donc pas calculable directement. On peut cependant r´eappliquer le principe du champ
moyen sur les param`etres ˆ
Ψlaiss´es fixes pour en obtenir une approximation.
4 R´
esultats exp´
erimentaux
La base d’apprentissage est compos´ee de 10 images uni-texture pour chacune des 7 textures
(soit un total de 70 images) : la brique, la moquette, le fauteuil, deux types de sol, le marbre, le
bois.
Reconnaissance d’images uni-textures
Le Tableau 1 donne les taux de bonne classification de l’ensemble des r´egions, pour chacune des
textures. Pour comparaison, nous reportons dans la ligne “Max. vraisemblance” les r´esultats ob-
tenus en classant chaque r´egion dans la texture de plus grande vraisemblance lorsque le mod`ele
appris pour chaque texture est un m´elange gaussien (sans d´ependance spatiale). Nous donnons
´egalement les r´esultats obtenus par la proc´edure propos´ee dans [2] qui utilise un algorithme de
relaxation permettant d’ajouter de l’information spatiale par le biais de poids, sans mod´elisation
explicite des d´ependances entre descripteurs.
Texture Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois
Max. vraisemblance 48 77 52 56 51 17 30
Relaxation 78 96 72 86 80 19 42
Champ simul´e 81 97 77 80 86 26 46
TAB. 1 – % de bonne classification des r´egions sur des images uni-textures.
Ces r´esultats confirment l’int´erˆet de prendre en compte l’organisation spatiale des descrip-
teurs et de le faire `a l’aide d’un mod`ele explicite : la classification par maximum de vraisem-
blance donne des taux de classification significativement inf´erieurs pour chacune des textures
et la m´ethode de relaxation est globalement moins bonne, quoique satisfaisante. Le marbre et le
bois semblent difficiles `a apprendre, certaines de leurs images ayant de tr`es brusques change-
ments de luminosit´e.
5
1 / 6 100%