M OD ÈLES MARKOVIENS POUR L’ ORGANISATION SPATIALE DE DESCRIPTEURS D ’ IMAGES . Juliette Blanchet & Florence Forbes & Cordelia Schmid [email protected], [email protected], [email protected] Résumé Ce papier décrit une nouvelle approche probabiliste pour la reconnaissance de textures. Une image est décrite à l’aide de descripteurs locaux, ainsi que par des relations spatiales entre ces descripteurs. Les approches actuelles consistent à modéliser les descripteurs comme des variables indépendantes, puis à rajouter l’information spatiale par le biais de poids, sans modélisation explicite. Nous proposons d’introduire un modèle statistique rendant compte directement de cette dépendance entre descripteurs, par l’utilisation de champs de Markov cachés. Nous illustrons notre méthode sur la reconnaissance d’images uni et multi-textures. Les résultats obtenus sont prometteurs. This paper decribes a new probabilistic framework for recognizing textures in images. Images are described by spatially related local descriptors. Current approaches consist in modeling descriptors as statistically independent variables, and in augmenting the data with spatial information, in terms of weights, without explicit model. We propose to introduce the use of statistical parametric models of the dependence between descriptors, using Hidden Markov Models (HMM). Preliminary experiments obtained with uni and multi textures show promising results. Mots clés : Champ de Markov, Algorithme de type EM, Classification, Apprentissage statistique, Reconnaissance de textures. 1 Introduction Une notion clé en vision par ordinateur est celle de descripteurs, caractérisations locales d’une image. De manière générale, un bon descripteur se doit d’être résistant aux occlusions, ainsi qu’invariant à diverses transformations géométriques de l’image. La recherche de “bons” descripteurs a déjà fait l’objet de nombreuses études, alors que la prise en compte de leur organisation spatiale reste un problème très ouvert. Une tentative de prise en compte du caractère spatial des données pour la reconnaissance de textures a été effectuée dans [2] : lors de la phase de reconnaissance, les probabilités a posteriori d’appartenance aux différentes classes de textures sont raffinées par un algorithme de relaxation. Cependant, le voisinage n’y est pris en compte que par un terme de poids, sans modèle explicite. Nous proposons de modéliser les données (les descripteurs d’image) comme des variables statistiques liées, et par conséquent d’utiliser un modèle statistique paramétrique 1 rendant compte explicitement de ces dépendances. Le modèle que nous avons choisi est celui du champ de Markov caché. L’estimation des paramètres d’un tel modèle étant difficile, nous utilisons des procédures d’estimation récentes (algorithme de type EM), basées sur l’algorithme d’Expectation-Maximisation (EM) et sur le principe du champ moyen issu de la physique statistique. 2 Modélisation des textures Il est classique en vision de ne pas travailler sur les niveaux de gris, mais sur des caractérisations locales de l’image, appelés descripteurs. Brièvement, le principe consiste à détecter des points fortement représentatifs de l’image (les points d’interêt), à y associer des régions (ellipses, rectangles... de tailles variables), puis des données multidimentionnelles (les descripteurs) calculés sur ces régions. Pour nos expérimentations, le détecteur utilisé est le Laplacien avec adaptation affine, et les descripteurs sont des vecteurs de taille 80 calculés à partir de spin images de taille 5 × 16 [2]. Les échelles sont des ellipses de tailles variables sur lesquelles est défini le graphe de voisinage : deux points i et j seront dits voisins si i appartient à l’ellipse associée à j et réciproquement. Contrairement à [2], nous considérons que les descripteurs sont des variables aléatoires dépendantes, modélisées pour chaque texture par un champ de Markov caché, de paramètres inconnus. Soit x = (x1 , . . . , xn ) les n descripteurs (pour n points d’intérêt détectés) extraits d’une image de la texture m (1 ≤ m ≤ M ). On suppose que chaque texture est composée de K sous-classes cm1 . . . cmK (K = 10 pour nos expérimentations), qui n’ont pas de sens précis mais qui permettent de modéliser la distribution des descripteurs par un mélange. Pour i = 1, . . . , n, on modélise la probabilité d’observer le descripteur xi pour la texture m par : P (xi |Ψm ) = K X P (Zi = cmk |∆m ) f (xi |Θmk ), (1) k=1 où f (xi |Θmk ) dénote la distribution gaussienne multivariée de paramètres Θmk (la moyenne µmk et la matrice de covariance Σmk ). La variable aléatoire Zi représente la sous-classe à laquelle appartient le descripteur xi ; elle peut prendre les valeurs {cm1 , . . . , cmK }, et sa loi est paramétrée par ∆m . Ψm = (∆m , (Θmk )1≤k≤K ) dénote l’ensemble des paramètres du modèle pour la texture m. Les dépendances entre descripteurs voisins sont modélisées en considérant que la loi jointe des variables Z1 , . . . , Zn est un champ de Markov discret sur le graphe défini à la section 2. Soit z = (z1 , . . . , zn ) des réalisations des Zi . On définit : P (z|∆m ) = W (∆m )−1 exp(−H(z, ∆m )) 2 (2) où W (∆m ) est une constante de normalisation et H une fonction énergie supposée être de la forme (nous nous limitons aux interactions entre paires) : X X H(z, ∆m ) = Vi (zi , αm ) + Vij (zi , zj ,IBm ) i i∼j (la notation i ∼ j signifie que les sites i et j sont voisins ; la somme de droite ne porte donc que sur des sites voisins). Les fonctions Vi et Vij se rapportent respectivement aux potentiels sur les singletons et sur les paires, de paramètres respectifs αm et IBm . Il s’en suit ∆m = (αm ,IBm ). Nous supposons que les potentiels sur les singletons ne dépendent que de la valeur z i (et non de i), c’est à dire : Vi (zi , αm ) = −αm (k) si zi = cmk Les potentiels sur les singletons sont donc caractérisés par K poids α m = (αm (k))1≤k≤K pondérant l’importance relative des K sous-classes de la texture m. De même, les potentiels sur les paires Vij sont supposés ne dépendre que de zi et zj , soit Vij (zi , zj ,IBm ) = −Bm (k, l) si zi = cmk , zj = cml Ils sont donc caractérisés par la matrice IBm = (Bm (k, l))1≤k,l≤K . Notons que si IBm = βm ×Id, le paramètre spatial IBm se réduit à un scalaire βm et nous retrouvons le modèle de Potts traditionnel utilisé en segmentation d’images. La texture m est donc représentée par un champ de Markov caché paramétré par Ψ m = (αm ,IBm , (Θmk )1≤k≤K ). 3 Apprentissage et classification Dans la modélisation précédente, les paramètres Ψm = (∆m , (Θmk )1≤k≤K ) sont inconnus et doivent être estimés pour chaque texture m. 3.1 Apprentissage : estimation des paramètres inconnus Pour apprendre le modèle associé à chacune des textures, on suppose que l’on dispose d’une base d’apprentissage constituée d’images identifiées comme appartenant à l’une des textures. Chaque texture va alors être apprise successivement sur les images correspondantes. L’algorithme EM est couramment utilisé pour l’estimation de paramètres dans le cas de données cachées. Pour les champs de Markov cachés, du fait de la dépendance des données, l’algorithme n’est pas utilisable en pratique, et des approximations sont donc nécessaires. Dans ce papier, nous utilisons une des approximations de [1], basée sur le principe du champ moyen. Les algorithmes de type champ moyen (et en particulier l’algorithme en champ simulé) qui en 3 découlent ont montré leurs performances dans le cadre de la segmentation [1]. Notons cependant qu’il est nécessaire de généraliser ces algorithmes pour permettre l’estimation de la matrice IBm (et non seulement d’un scalaire βm comme dans le modèle de Potts originel). Le principe du champ moyen consiste à se ramener à un système de particules indépendantes (sur lequel l’algorithme EM pourra alors être appliqué) en négligeant, pour un site i, les fluctuations de ses voisins autour de leur moyenne (ie en fixant ∀j ∈ V(i), z j = IE(Zj )). Plus généralement, on parle d’approximation de type champ moyen lorsque, pour un site i, ses voisins sont fixés à des constantes. La distribution markovienne (2) peut alors être approximée par : n Y P (zi |z̃j , j ∈ V(i), Ψm ) P (z|∆m ) ' i=1 De même, la loi jointe P (x, z|Ψm ) et la loi markovienne P (z|x, Ψm ) se trouvent approximées par des distributions factorisées. L’utilisation de telles approximations mène à des algorithmes itératifs à deux étapes, alternant création du nouveau champ de voisins et application de l’algorithme EM sur le système indépendant ainsi obtenu. En particulier à l’itération (q), l’algorithme (q) en champ moyen consiste à fixer les z̃i à l’estimation de leur moyenne, l’algorithme en champ modal à l’estimation de leur mode et l’algorithme en champ simulé à les simuler. L’utilisation d’un de ces algorithmes nous permet, pour chaque texture m, d’obtenir des estimaˆ m et α̂m des paramètres teurs (µ̂mk , Σ̂mk )1≤k≤K des lois gaussiennes, ainsi que des estimateurs IB du champ caché. Cet ensemble de paramètres Ψ̂m va ensuite être utilisé pour classer les régions d’une image test dans une des textures apprises. 3.2 Classification d’une image test L’objectif est de classer individuellement chacune des régions dans une des M textures. Pour une image de texture inconnue, chaque descripteur xi est susceptible d’être issu d’une des M textures possibles, et donc d’une des M K sous-classes possibles. Il est alors naturel de modéliser le champ caché par un champ de Markov discret, pouvant prendre les valeurs {cmk , m ∈ [1, M ], k ∈ [1, K]}. et donc la probabilité d’observer le descripteur xi par : P (xi |Ψ) = M X K X P (Zi = cmk |∆) f (xi |Θmk ), (3) m=1 k=1 Comme dans la section 2, la fonction d’énergie du champ spatial Z est supposée se décomposer en fonctions potentielles sur les singletons et sur les paires. Son paramètre noté ∆ s’écrit alors sous la forme ∆ = (α,IB), où α est un vecteur de dimension M K pondèrant l’importance relative des différentes sous-classes, et IB est une matrice M K × M K modélisant les intéractions entre sous-classes associées à des sites voisins. Il est alors naturel de fixer les Θmk aux Θ̂mk obtenus par l’apprentissage, les α aux potentiels (α̂m )1≤m≤M appris et les termes de la matrice IB correspondant aux potentiels d’inter4 action entre sous-classes cmk et cml d’une même texture m aux B̂m (k, l). Les termes d’interactions entre sous-classes associées à des textures différentes sont en pratique fixés à une valeur constante qui peut varier selon le degré d’interaction que l’on souhaite (−10 pour nos ˆ Θ̂) de la loi expérimentations). Au final, on obtient donc une valeur du paramètre Ψ̂ = (α̂, IB, d’une image quelconque. Une texture m étant composée des K sous-classes P cm1 , . . . , cmK , il ˆest alors naturel de classer un descripteur xi dans la texture m maximisant K k=1 P (Zi = cmk |∆) f (xi |Θ̂mk ). Cependant, la loi markovienne de Zi fait intervenir la classification inconnue zj des sites j voisins de i, et n’est donc pas calculable directement. On peut cependant réappliquer le principe du champ moyen sur les paramètres Ψ̂ laissés fixes pour en obtenir une approximation. 4 Résultats expérimentaux La base d’apprentissage est composée de 10 images uni-texture pour chacune des 7 textures (soit un total de 70 images) : la brique, la moquette, le fauteuil, deux types de sol, le marbre, le bois. Reconnaissance d’images uni-textures Le Tableau 1 donne les taux de bonne classification de l’ensemble des régions, pour chacune des textures. Pour comparaison, nous reportons dans la ligne “Max. vraisemblance” les résultats obtenus en classant chaque région dans la texture de plus grande vraisemblance lorsque le modèle appris pour chaque texture est un mélange gaussien (sans dépendance spatiale). Nous donnons également les résultats obtenus par la procédure proposée dans [2] qui utilise un algorithme de relaxation permettant d’ajouter de l’information spatiale par le biais de poids, sans modélisation explicite des dépendances entre descripteurs. Texture Max. vraisemblance Relaxation Champ simulé Brique 48 78 81 Moquette 77 96 97 Fauteuil 52 72 77 Sol 1 56 86 80 Sol 2 51 80 86 Marbre 17 19 26 Bois 30 42 46 TAB . 1 – % de bonne classification des régions sur des images uni-textures. Ces résultats confirment l’intérêt de prendre en compte l’organisation spatiale des descripteurs et de le faire à l’aide d’un modèle explicite : la classification par maximum de vraisemblance donne des taux de classification significativement inférieurs pour chacune des textures et la méthode de relaxation est globalement moins bonne, quoique satisfaisante. Le marbre et le bois semblent difficiles à apprendre, certaines de leurs images ayant de très brusques changements de luminosité. 5 Reconnaissance d’images multi-textures Les trois algorithmes sont également testés sur 62 images multi-textures, dont 5 artificiellement créées. Un exemple de classifications obtenue est présenté Figure 1. Il en ressort clairement que la prise en compte de l’information spatiale par une modélisation explicite (à travers l’algorithme en champ simulé), améliore la classification. Brique Moquette Fauteuil Sol 1 Sol 2 Marbre Bois F IG . 1 – Classification obtenue par le maximum de vraisemblance (en haut), par la relaxation (au centre) et par l’algorithme en champ simulé (en bas), sur une image composée de fauteuil et de bois. 5 Conclusion et perspectives Notre objectif était de montrer que des modèles statistiques paramétriques pouvaient être introduits pour rendre compte de l’organisation spatiale et géométrique des descripteurs d’images. Les champs de Markov cachés en sont des candidats naturels, que nous avons expérimentés dans le cadre de la reconnaissance de textures. Des résultats obtenus sur des images uni ou multi textures sont prometteurs. Le formalisme présenté dans ce papier est général et pourrait être envisagé dans d’autres contextes, notamment pour la reconnaissance d’objets. Sa mise en pratique demande cependant plus de développement concernant à la fois les aspects de vision (choix du graphe de voisinage et des descripteurs) et de statistique (estimation et sélection de modèles). Bibliographie [1] G.Celeux, F.Forbes et N.Peyrard, “EM Procedures Using Mean Field-Like Approximations for Markov Model-Based Image Segmentation”, Pattern Recognition, 36(1), p. 131-144, 2003. [2] S. Lazebnik, C. Schmid et J. Ponce, “Affine-Invariant Local Descriptors and Neighborhood Statistics for Texture Recognition”, Proc. ICCV, 2003. 6