1 Introduction

Téléchargement

MOD `

ELES MARKOVIENS POUR L’ORGANISATION SPATIALE

DE DESCRIPTEURS D ’I M AGES.

Juliette Blanchet & Florence Forbes & Cordelia Schmid

[email protected], ﬂor[email protected], cordelia.sc[email protected]

R´

esum´

Ce papier d´ecrit une nouvelle approche probabiliste pour la reconnaissance de tex-

tures. Une image est d´ecrite `a l’aide de descripteurs locaux, ainsi que par des relations

spatiales entre ces descripteurs. Les approches actuelles consistent `a mod´eliser les descrip-

teurs comme des variables ind´ependantes, puis `a rajouter l’information spatiale par le biais

de poids, sans mod´elisation explicite. Nous proposons d’introduire un mod`ele statistique

rendant compte directement de cette d´ependance entre descripteurs, par l’utilisation de

champs de Markov cach´es. Nous illustrons notre m´ethode sur la reconnaissance d’images

uni et multi-textures. Les r´esultats obtenus sont prometteurs.

This paper decribes a new probabilistic framework for recognizing textures in images.

Images are described by spatially related local descriptors. Current approaches consist in

modeling descriptors as statistically independent variables, and in augmenting the data with

spatial information, in terms of weights, without explicit model. We propose to introduce

the use of statistical parametric models of the dependence between descriptors, using Hid-

den Markov Models (HMM). Preliminary experiments obtained with uni and multi textures

show promising results.

Mots cl´

es : Champ de Markov, Algorithme de type EM, Classiﬁcation, Apprentissage sta-

tistique, Reconnaissance de textures.

1 Introduction

Une notion cl´e en vision par ordinateur est celle de descripteurs, caract´erisations locales

d’une image. De mani`ere g´en´erale, un bon descripteur se doit d’ˆetre r´esistant aux occlusions,

ainsi qu’invariant `a diverses transformations g´eom´etriques de l’image. La recherche de “bons”

descripteurs a d´ej`a fait l’objet de nombreuses ´etudes, alors que la prise en compte de leur orga-

nisation spatiale reste un probl`eme tr`es ouvert.

Une tentative de prise en compte du caract`ere spatial des donn´ees pour la reconnaissance de

textures a ´et´e effectu´ee dans [2] : lors de la phase de reconnaissance, les probabilit´es a pos-

teriori d’appartenance aux diff´erentes classes de textures sont rafﬁn´ees par un algorithme de

relaxation. Cependant, le voisinage n’y est pris en compte que par un terme de poids, sans

mod`ele explicite. Nous proposons de mod´eliser les donn´ees (les descripteurs d’image) comme

des variables statistiques li´ees, et par cons´equent d’utiliser un mod`ele statistique param´etrique

rendant compte explicitement de ces d´ependances. Le mod`ele que nous avons choisi est celui

du champ de Markov cach´e. L’estimation des param`etres d’un tel mod`ele ´etant difﬁcile, nous

utilisons des proc´edures d’estimation r´ecentes (algorithme de type EM), bas´ees sur l’algorithme

d’Expectation-Maximisation (EM) et sur le principe du champ moyen issu de la physique sta-

tistique.

2 Mod´

elisation des textures

Il est classique en vision de ne pas travailler sur les niveaux de gris, mais sur des ca-

ract´erisations locales de l’image, appel´es descripteurs. Bri`evement, le principe consiste `a d´etec-

ter des points fortement repr´esentatifs de l’image (les points d’interˆ

et), `a y associer des r´egions

(ellipses, rectangles... de tailles variables), puis des donn´ees multidimentionnelles (les descrip-

teurs) calcul´es sur ces r´egions. Pour nos exp´erimentations, le d´etecteur utilis´e est le Laplacien

avec adaptation afﬁne, et les descripteurs sont des vecteurs de taille 80 calcul´es `a partir de spin

images de taille 5×16 [2]. Les ´echelles sont des ellipses de tailles variables sur lesquelles est

d´eﬁni le graphe de voisinage : deux points iet jseront dits voisins si iappartient `a l’ellipse

associ´ee `a jet r´eciproquement.

Contrairement `a [2], nous consid´erons que les descripteurs sont des variables al´eatoires d´epen-

dantes, mod´elis´ees pour chaque texture par un champ de Markov cach´e, de param`etres inconnus.

Soit x= (x1,...,xn)les ndescripteurs (pour npoints d’int´erˆet d´etect´es) extraits d’une image

de la texture m(1≤m≤M). On suppose que chaque texture est compos´ee de Ksous-classes

cm1. . . cmK (K= 10 pour nos exp´erimentations), qui n’ont pas de sens pr´ecis mais qui per-

mettent de mod´eliser la distribution des descripteurs par un m´elange. Pour i= 1, . . . , n, on

mod´elise la probabilit´e d’observer le descripteur xipour la texture mpar :

P(xi|Ψm) =

k=1

P(Zi=cmk|∆m)f(xi|Θmk ),(1)

o`u f(xi|Θmk)d´enote la distribution gaussienne multivari´ee de param`etres Θmk (la moyenne

µmk et la matrice de covariance Σmk). La variable al´eatoire Zirepr´esente la sous-classe `a la-

quelle appartient le descripteur xi; elle peut prendre les valeurs {cm1, . . . , cmK }, et sa loi est

param´etr´ee par ∆m.Ψm= (∆m,(Θmk)1≤k≤K)d´enote l’ensemble des param`etres du mod`ele

pour la texture m.

Les d´ependances entre descripteurs voisins sont mod´elis´ees en consid´erant que la loi jointe des

variables Z1,...,Znest un champ de Markov discret sur le graphe d´eﬁni `a la section 2. Soit

z= (z1,...,zn)des r´ealisations des Zi. On d´eﬁnit :

P(z|∆m) = W(∆m)−1exp(−H(z,∆m)) (2)

o`u W(∆m)est une constante de normalisation et Hune fonction ´energie suppos´ee ˆetre de la

forme (nous nous limitons aux interactions entre paires) :

H(z,∆m) = X

Vi(zi,αm) + X

i∼j

Vij (zi, zj,IBm)

(la notation i∼jsigniﬁe que les sites iet jsont voisins ; la somme de droite ne porte donc que

sur des sites voisins).

Les fonctions Viet Vij se rapportent respectivement aux potentiels sur les singletons et sur

les paires, de param`etres respectifs αmet IBm. Il s’en suit ∆m= (αm,IBm).

Nous supposons que les potentiels sur les singletons ne d´ependent que de la valeur zi(et non de

i), c’est `a dire :

Vi(zi,αm) = −αm(k)si zi=cmk

Les potentiels sur les singletons sont donc caract´eris´es par Kpoids αm= (αm(k))1≤k≤K

pond´erant l’importance relative des Ksous-classes de la texture m.

De mˆeme, les potentiels sur les paires Vij sont suppos´es ne d´ependre que de ziet zj, soit

Vij(zi, zj,IBm) = −Bm(k, l)si zi=cmk,zj=cml

Ils sont donc caract´eris´es par la matrice IBm= (Bm(k, l))1≤k,l≤K. Notons que si IBm=βm×Id,

le param`etre spatial IBmse r´eduit `a un scalaire βmet nous retrouvons le mod`ele de Potts tradi-

tionnel utilis´e en segmentation d’images.

La texture mest donc repr´esent´ee par un champ de Markov cach´e param´etr´e par Ψm=

(αm,IBm,(Θmk )1≤k≤K).

3 Apprentissage et classiﬁcation

Dans la mod´elisation pr´ec´edente, les param`etres Ψm= (∆m,(Θmk)1≤k≤K)sont inconnus

et doivent ˆetre estim´es pour chaque texture m.

3.1 Apprentissage : estimation des param`

etres inconnus

Pour apprendre le mod`ele associ´e `a chacune des textures, on suppose que l’on dispose d’une

base d’apprentissage constitu´ee d’images identiﬁ´ees comme appartenant `a l’une des textures.

Chaque texture va alors ˆetre apprise successivement sur les images correspondantes. L’algo-

rithme EM est couramment utilis´e pour l’estimation de param`etres dans le cas de donn´ees

cach´ees. Pour les champs de Markov cach´es, du fait de la d´ependance des donn´ees, l’algo-

rithme n’est pas utilisable en pratique, et des approximations sont donc n´ecessaires. Dans ce

papier, nous utilisons une des approximations de [1], bas´ee sur le principe du champ moyen.

Les algorithmes de type champ moyen (et en particulier l’algorithme en champ simul´

e) qui en

d´ecoulent ont montr´e leurs performances dans le cadre de la segmentation [1]. Notons cepen-

dant qu’il est n´ecessaire de g´en´eraliser ces algorithmes pour permettre l’estimation de la matrice

IBm(et non seulement d’un scalaire βmcomme dans le mod`ele de Potts originel).

Le principe du champ moyen consiste `a se ramener `a un syst`eme de particules ind´ependantes

(sur lequel l’algorithme EM pourra alors ˆetre appliqu´e) en n´egligeant, pour un site i, les ﬂuc-

tuations de ses voisins autour de leur moyenne (ie en ﬁxant ∀j∈ V(i), zj=IE(Zj)). Plus

g´en´eralement, on parle d’approximation de type champ moyen lorsque, pour un site i, ses voi-

sins sont ﬁx´es `a des constantes. La distribution markovienne (2) peut alors ˆetre approxim´ee

par :

P(z|∆m)'

i=1

P(zi|˜zj, j ∈ V(i),Ψm)

De mˆeme, la loi jointe P(x,z|Ψm)et la loi markovienne P(z|x,Ψm)se trouvent approxim´ees

par des distributions factoris´ees. L’utilisation de telles approximations m`ene `a des algorithmes

it´eratifs `a deux ´etapes, alternant cr´eation du nouveau champ de voisins et application de l’algo-

rithme EM sur le syst`eme ind´ependant ainsi obtenu. En particulier `a l’it´eration (q), l’algorithme

en champ moyen consiste `a ﬁxer les ˜z(q)

i`a l’estimation de leur moyenne, l’algorithme en champ

modal `a l’estimation de leur mode et l’algorithme en champ simul´

e`a les simuler.

L’utilisation d’un de ces algorithmes nous permet, pour chaque texture m, d’obtenir des estima-

teurs (ˆµmk,ˆ

Σmk)1≤k≤Kdes lois gaussiennes, ainsi que des estimateurs ˆ

IBmet ˆ

αmdes param`etres

du champ cach´e. Cet ensemble de param`etres ˆ

Ψmva ensuite ˆetre utilis´e pour classer les r´egions

d’une image test dans une des textures apprises.

3.2 Classiﬁcation d’une image test

L’objectif est de classer individuellement chacune des r´egions dans une des Mtextures.

Pour une image de texture inconnue, chaque descripteur xiest susceptible d’ˆetre issu d’une

des Mtextures possibles, et donc d’une des MK sous-classes possibles. Il est alors naturel

de mod´eliser le champ cach´e par un champ de Markov discret, pouvant prendre les valeurs

{cmk, m ∈[1, M], k ∈[1, K]}. et donc la probabilit´e d’observer le descripteur xipar :

P(xi|Ψ) =

m=1

k=1

P(Zi=cmk|∆)f(xi|Θmk ),(3)

Comme dans la section 2, la fonction d’´energie du champ spatial Zest suppos´ee se d´ecomposer

en fonctions potentielles sur les singletons et sur les paires. Son param`etre not´e ∆s’´ecrit alors

sous la forme ∆= (α,IB), o`u αest un vecteur de dimension M K pond`erant l’importance re-

lative des diff´erentes sous-classes, et IB est une matrice M K ×MK mod´elisant les int´eractions

entre sous-classes associ´ees `a des sites voisins.

Il est alors naturel de ﬁxer les Θmk aux ˆ

Θmk obtenus par l’apprentissage, les αaux poten-

tiels (ˆ

αm)1≤m≤Mappris et les termes de la matrice IB correspondant aux potentiels d’inter-

action entre sous-classes cmk et cml d’une mˆeme texture maux ˆ

Bm(k, l). Les termes d’in-

teractions entre sous-classes associ´ees `a des textures diff´erentes sont en pratique ﬁx´es `a une

valeur constante qui peut varier selon le degr´e d’interaction que l’on souhaite (−10 pour nos

exp´erimentations). Au ﬁnal, on obtient donc une valeur du param`etre ˆ

Ψ= ( ˆ

α,ˆ

IB,ˆ

Θ)de la loi

d’une image quelconque.

Une texture m´etant compos´ee des Ksous-classes cm1,...,cmK , il est alors naturel de classer

un descripteur xidans la texture mmaximisant PK

k=1 P(Zi=cmk|ˆ

∆)f(xi|ˆ

Θmk). Cependant,

la loi markovienne de Zifait intervenir la classiﬁcation inconnue zjdes sites jvoisins de i,

et n’est donc pas calculable directement. On peut cependant r´eappliquer le principe du champ

moyen sur les param`etres ˆ

Ψlaiss´es ﬁxes pour en obtenir une approximation.

4 R´

esultats exp´

erimentaux

La base d’apprentissage est compos´ee de 10 images uni-texture pour chacune des 7 textures

(soit un total de 70 images) : la brique, la moquette, le fauteuil, deux types de sol, le marbre, le

bois.

Reconnaissance d’images uni-textures

Le Tableau 1 donne les taux de bonne classiﬁcation de l’ensemble des r´egions, pour chacune des

textures. Pour comparaison, nous reportons dans la ligne “Max. vraisemblance” les r´esultats ob-

tenus en classant chaque r´egion dans la texture de plus grande vraisemblance lorsque le mod`ele

appris pour chaque texture est un m´elange gaussien (sans d´ependance spatiale). Nous donnons

´egalement les r´esultats obtenus par la proc´edure propos´ee dans [2] qui utilise un algorithme de

relaxation permettant d’ajouter de l’information spatiale par le biais de poids, sans mod´elisation

explicite des d´ependances entre descripteurs.

Texture Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois

Max. vraisemblance 48 77 52 56 51 17 30

Relaxation 78 96 72 86 80 19 42

Champ simul´e 81 97 77 80 86 26 46

TAB. 1 – % de bonne classiﬁcation des r´egions sur des images uni-textures.

Ces r´esultats conﬁrment l’int´erˆet de prendre en compte l’organisation spatiale des descrip-

teurs et de le faire `a l’aide d’un mod`ele explicite : la classiﬁcation par maximum de vraisem-

blance donne des taux de classiﬁcation signiﬁcativement inf´erieurs pour chacune des textures

et la m´ethode de relaxation est globalement moins bonne, quoique satisfaisante. Le marbre et le

bois semblent difﬁciles `a apprendre, certaines de leurs images ayant de tr`es brusques change-

ments de luminosit´e.

1 / 6 100%

1 Introduction

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

1 Introduction

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib